Pode-se usar regressão múltipla para prever um componente principal (PC) de vários outros PCs?

15

Há um tempo, um usuário da lista de discussão R-help perguntou sobre a integridade do uso de pontuações PCA em uma regressão. O usuário está tentando usar algumas pontuações do PC para explicar a variação em outro PC (consulte a discussão completa aqui ). A resposta foi que não, isso não é válido porque os PCs são ortogonais entre si.

Alguém pode explicar com mais detalhes por que isso acontece?

Roman Luštrik
fonte
1
Por que você colocou rtag e o que você quer dizer com "por que isso é assim"? Os PCs não são correlacionados, ou seja, são ortogonais, aditivos, você não pode prever um PC com o outro. Você está procurando uma fórmula?
aL3xa
Eu estava pensando sobre os princípios por trás da lógica (na minha busca para entender o PCA). Eu usei a tag R porque as pessoas R podem ler isso e talvez mostrar exemplos de R. :)
Roman Luštrik
Oh, por que você não disse isso? Você já viu statmethods.net/advstats/factor.html
aL3xa

Respostas:

11

Um componente principal é uma combinação linear ponderada de todos os seus fatores (Xs).

exemplo: PC1 = 0.1X1 + 0.3X2

Haverá um componente para cada fator (embora, em geral, um número pequeno seja selecionado).

Os componentes são criados para que tenham correlação zero (são ortogonais), por design.

Portanto, o componente PC1 não deve explicar nenhuma variação no componente PC2.

Você pode fazer uma regressão na sua variável Y e na representação PCA dos seus Xs, pois eles não terão múltiplas colinearidades. No entanto, isso pode ser difícil de interpretar.

Se você tiver mais Xs do que observações, o que quebra o OLS, poderá regredir em seus componentes e simplesmente selecionar um número menor dos componentes de maior variação.

Análise de Componentes Principais por Jollife, um livro muito citado e profundamente citado sobre o assunto

Isso também é bom: http://www.statsoft.com/textbook/principal-components-factor-analysis/

Neil McGuigan
fonte
11

Os principais componentes são ortogonais por definição, portanto, qualquer par de PCs terá correlação zero.

No entanto, o PCA pode ser usado em regressão se houver um grande número de variáveis ​​explicativas. Estes podem ser reduzidos a um pequeno número de componentes principais e usados ​​como preditores em uma regressão.

Rob Hyndman
fonte
Isso não seria FA então?
Roman Luštrik
3
Não. FA não é regressão. Refiro-me a uma variável de resposta regredida em relação aos principais componentes calculados a partir de um grande número de variáveis ​​explicativas. Os principais componentes em si estão intimamente relacionados aos fatores da FA.
21810 Rob Robndndman
Sinto muito, eu deveria ter sido mais preciso no meu comentário. Sua escrita de que as variáveis ​​explicativas podem ser reduzidas a um pequeno número de PC me tocou a campainha de "análise fatorial".
Roman Luštrik
No conjunto com n variáveis, n PCs podem ser extraídos, mas você pode decidir quantos gostaria de manter, por exemplo, o critério Guttman-Keiser diz: mantenha todos os PCs com valor próprio (variação) maior que 1. Então, aí ... .
aL3xa
7

Cuidado ... só porque os PCs são ortogonais entre si, não significa que não haja um padrão ou que um PC não pareça "explicar" algo sobre os outros PCs.

Considere dados 3D (X, Y, Z) descrevendo um grande número de pontos distribuídos uniformemente na superfície de um futebol americano (é um elipsóide - não uma esfera - para aqueles que nunca assistiram futebol americano). Imagine que o futebol esteja em uma configuração arbitrária, de modo que nem X nem Y nem Z estejam ao longo do eixo longo do futebol.

Os componentes principais colocarão PC1 ao longo do eixo longo da bola de futebol, o eixo que descreve a maior variação nos dados.

Para qualquer ponto da dimensão PC1 ao longo do eixo longo da bola de futebol, a fatia plana representada por PC2 e PC3 deve descrever um círculo e o raio dessa fatia circular depende da dimensão PC1. É verdade que as regressões de PC2 ou PC3 no PC1 devem fornecer um coeficiente zero globalmente, mas não em seções menores do futebol ... e é claro que um gráfico 2D de PC1 e PC2 mostraria um limite limitador "interessante" isso é de dois valores, não linear e simétrico.

Paulo
fonte
3

Se seus dados tiverem alta dimensão e ruído, e você não tiver um grande número de amostras, você corre o risco de se ajustar demais. Nesses casos, faz sentido usar o PCA (que pode capturar uma parte dominante da variação de dados; ortogonalidade não é um problema) ou análise fatorial (que pode encontrar as verdadeiras variáveis ​​explicativas subjacentes aos dados) para reduzir a dimensionalidade dos dados e, em seguida, treinar um modelo de regressão com eles.

Para abordagens baseadas na análise fatorial, consulte este documento Modelo de regressão fatorial bayesiano e uma versão bayesiana não paramétrica deste modelo que não pressupõe que você a priori conheça o número "verdadeiro" de fatores relevantes (ou componentes principais no caso de PCA).

Eu acrescentaria que, em muitos casos, a redução supervisionada de dimensionalidade (por exemplo, Análise Discriminante de Fisher ) pode oferecer melhorias em relação a abordagens simples baseadas em PCA ou FA, porque você pode usar as informações da etiqueta enquanto reduz a dimensionalidade.

ebony1
fonte
0

você pode retirá-lo se a pontuação prevista do PC tiver sido extraída de diferentes variáveis ​​ou casos do que a pontuação do PC preditor. se esse for o caso previsto e o preditor não for ortogonal ou, pelo menos, não for necessário, a correlação certamente não é garantida.

Tomas Boncompte
fonte