Selecionando o número de componentes principais esparsos para incluir na regressão

9

Alguém tem experiência com abordagens para selecionar o número de componentes principais esparsos para incluir em um modelo de regressão?

Frank Harrell
fonte
Não tenho experiência com isso especificamente, mas presumiria que a validação cruzada seria uma boa abordagem (como sempre).
Ameba

Respostas:

4

Embora eu não tenha idéias diretas sobre sua pergunta, deparei-me com alguns trabalhos de pesquisa , que podem ser do seu interesse. Isso é claro, se eu entendi corretamente que você está falando de PCA esparso , regressão de componentes principais e tópicos relacionados. Nesse caso, aqui estão os papéis:

Aleksandr Blekh
fonte
11
Eu não conhecia todas essas referências. Eles são muito bons - obrigado.
Frank Harrell
@FrankHarrell: De nada! Ainda bem que pude ajudar.
Aleksandr Blekh
1

Os resultados da validação cruzada também foram utilizados para determinar o número ideal de dimensões para o espaço LSI. Poucas dimensões não tiravam vantagem do poder preditivo dos dados; enquanto muitas dimensões resultaram em excesso de ajuste. A figura 4 mostra a distribuição dos erros médios para modelos com diferentes números de dimensões LSI. Os modelos com espaços LSI quadridimensionais produziram o menor número médio de erros e o menor número médio de erros; portanto, o modelo final foi construído usando um espaço LSI quadridimensional.

http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=5876870&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D5876870

Posso postar uma cópia se você não for um membro ieee.

Isto é de um artigo que escrevi na graduação. Tive um problema em que precisava decidir quantas dimensões (a Indexação Semântica Latente é semelhante à PCA) a ser usada no meu modelo de regressão logística. O que fiz foi escolher uma métrica (ou seja, a taxa de erro ao usar uma probabilidade de sinalização de 0,5) e analisou a distribuição dessa taxa de erro para diferentes modelos treinados em diferentes números de dimensões. Eu escolhi o modelo com a menor taxa de erro. Você pode usar outras métricas, como a área sob a curva ROC.

Você também pode usar algo como regressão gradual para escolher o número de dimensões para você. Que tipo de regressão você está executando especificamente?

O que você quer dizer com esparsas btw?

Andrew Cassidy
fonte
PC esparso é, por exemplo, PCA com L1 (laço). No PCA comum, geralmente podemos inserir termos na ordem das variações explicadas. Com o PCA escasso, as coisas ficam um pouco mais erráticas, portanto a seleção talvez seja mais difícil.
Frank Harrell
A questão era especificamente sobre esparsos componentes principais, e esta resposta (bem como é) não dirigir-se em todos , de modo -1.
Ameba
Regressão passo a passo que escolhe componentes com base em associações com Yresultará em super ajuste, a menos que funções especiais de penalidade sejam incorporadas.
Frank Harrell
@FrankHarrell que potencialmente pode acontecer, mas é menos propenso a acontecer se você usar AIC, em vez de R-quadrado
Andrew Cassidy
@amoeba Estou confuso ... não, não lidei com a parte "esparsa" dos principais comentários, mas você fez exatamente a mesma sugestão para usar a validação cruzada em um comentário?
Andrew Cassidy