Alguém tem experiência com abordagens para selecionar o número de componentes principais esparsos para incluir em um modelo de regressão?
pca
sparse
regression-strategies
Frank Harrell
fonte
fonte
Respostas:
Embora eu não tenha idéias diretas sobre sua pergunta, deparei-me com alguns trabalhos de pesquisa , que podem ser do seu interesse. Isso é claro, se eu entendi corretamente que você está falando de PCA esparso , regressão de componentes principais e tópicos relacionados. Nesse caso, aqui estão os papéis:
fonte
http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=5876870&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D5876870
Posso postar uma cópia se você não for um membro ieee.
Isto é de um artigo que escrevi na graduação. Tive um problema em que precisava decidir quantas dimensões (a Indexação Semântica Latente é semelhante à PCA) a ser usada no meu modelo de regressão logística. O que fiz foi escolher uma métrica (ou seja, a taxa de erro ao usar uma probabilidade de sinalização de 0,5) e analisou a distribuição dessa taxa de erro para diferentes modelos treinados em diferentes números de dimensões. Eu escolhi o modelo com a menor taxa de erro. Você pode usar outras métricas, como a área sob a curva ROC.
Você também pode usar algo como regressão gradual para escolher o número de dimensões para você. Que tipo de regressão você está executando especificamente?
O que você quer dizer com esparsas btw?
fonte