Há um tempo, um usuário da lista de discussão R-help perguntou sobre a integridade do uso de pontuações PCA em uma regressão. O usuário está tentando usar algumas pontuações do PC para explicar a variação em outro PC (consulte a discussão completa aqui ). A resposta foi que não, isso não é válido porque os PCs são ortogonais entre si.
Alguém pode explicar com mais detalhes por que isso acontece?
regression
pca
Roman Luštrik
fonte
fonte
r
tag e o que você quer dizer com "por que isso é assim"? Os PCs não são correlacionados, ou seja, são ortogonais, aditivos, você não pode prever um PC com o outro. Você está procurando uma fórmula?Respostas:
Um componente principal é uma combinação linear ponderada de todos os seus fatores (Xs).
exemplo: PC1 = 0.1X1 + 0.3X2
Haverá um componente para cada fator (embora, em geral, um número pequeno seja selecionado).
Os componentes são criados para que tenham correlação zero (são ortogonais), por design.
Portanto, o componente PC1 não deve explicar nenhuma variação no componente PC2.
Você pode fazer uma regressão na sua variável Y e na representação PCA dos seus Xs, pois eles não terão múltiplas colinearidades. No entanto, isso pode ser difícil de interpretar.
Se você tiver mais Xs do que observações, o que quebra o OLS, poderá regredir em seus componentes e simplesmente selecionar um número menor dos componentes de maior variação.
Análise de Componentes Principais por Jollife, um livro muito citado e profundamente citado sobre o assunto
Isso também é bom: http://www.statsoft.com/textbook/principal-components-factor-analysis/
fonte
Os principais componentes são ortogonais por definição, portanto, qualquer par de PCs terá correlação zero.
No entanto, o PCA pode ser usado em regressão se houver um grande número de variáveis explicativas. Estes podem ser reduzidos a um pequeno número de componentes principais e usados como preditores em uma regressão.
fonte
Cuidado ... só porque os PCs são ortogonais entre si, não significa que não haja um padrão ou que um PC não pareça "explicar" algo sobre os outros PCs.
Considere dados 3D (X, Y, Z) descrevendo um grande número de pontos distribuídos uniformemente na superfície de um futebol americano (é um elipsóide - não uma esfera - para aqueles que nunca assistiram futebol americano). Imagine que o futebol esteja em uma configuração arbitrária, de modo que nem X nem Y nem Z estejam ao longo do eixo longo do futebol.
Os componentes principais colocarão PC1 ao longo do eixo longo da bola de futebol, o eixo que descreve a maior variação nos dados.
Para qualquer ponto da dimensão PC1 ao longo do eixo longo da bola de futebol, a fatia plana representada por PC2 e PC3 deve descrever um círculo e o raio dessa fatia circular depende da dimensão PC1. É verdade que as regressões de PC2 ou PC3 no PC1 devem fornecer um coeficiente zero globalmente, mas não em seções menores do futebol ... e é claro que um gráfico 2D de PC1 e PC2 mostraria um limite limitador "interessante" isso é de dois valores, não linear e simétrico.
fonte
Se seus dados tiverem alta dimensão e ruído, e você não tiver um grande número de amostras, você corre o risco de se ajustar demais. Nesses casos, faz sentido usar o PCA (que pode capturar uma parte dominante da variação de dados; ortogonalidade não é um problema) ou análise fatorial (que pode encontrar as verdadeiras variáveis explicativas subjacentes aos dados) para reduzir a dimensionalidade dos dados e, em seguida, treinar um modelo de regressão com eles.
Para abordagens baseadas na análise fatorial, consulte este documento Modelo de regressão fatorial bayesiano e uma versão bayesiana não paramétrica deste modelo que não pressupõe que você a priori conheça o número "verdadeiro" de fatores relevantes (ou componentes principais no caso de PCA).
Eu acrescentaria que, em muitos casos, a redução supervisionada de dimensionalidade (por exemplo, Análise Discriminante de Fisher ) pode oferecer melhorias em relação a abordagens simples baseadas em PCA ou FA, porque você pode usar as informações da etiqueta enquanto reduz a dimensionalidade.
fonte
você pode retirá-lo se a pontuação prevista do PC tiver sido extraída de diferentes variáveis ou casos do que a pontuação do PC preditor. se esse for o caso previsto e o preditor não for ortogonal ou, pelo menos, não for necessário, a correlação certamente não é garantida.
fonte