O PCA é instável sob multicolinearidade?

25

Eu sei que em uma situação de regressão, se você tem um conjunto de variáveis ​​altamente correlacionadas, isso geralmente é "ruim" devido à instabilidade nos coeficientes estimados (a variação vai para o infinito, enquanto o determinante vai para zero).

Minha pergunta é se essa "maldade" persiste em uma situação de PCA. Os coeficientes / cargas / pesos / autovetores de um PC em particular tornam-se instáveis ​​/ arbitrários / não exclusivos à medida que a matriz de covariância se torna singular? Estou particularmente interessado no caso em que apenas o primeiro componente principal é mantido e todos os outros são descartados como "ruído" ou "outra coisa" ou "sem importância".

Eu não acho que sim, porque você terá apenas alguns componentes principais que têm zero ou quase uma variação zero.

É fácil ver que esse não é o caso simples e extremo com 2 variáveis ​​- suponha que elas estejam perfeitamente correlacionadas. Então o primeiro PC será a relação linear exata e o segundo PC será perpindicular ao primeiro PC, com todos os valores de PC iguais a zero para todas as observações (ou seja, variação zero). Querendo saber se é mais geral.

probabilityislogic
fonte
8
Seu raciocínio é bom. Na verdade, seria de esperar que ocorra instabilidade quando dois ou mais valores próprios são quase coincidentes, pois, embora os valores próprios sejam determinados, os vetores próprios não são e, portanto, também não são os carregamentos. Por razões numéricas, também há instabilidade nos autovalores (e autovetores) com tamanho muito pequeno em comparação com o valor próprio máximo.
whuber
O comentário do @whuber responde à sua pergunta, mas eu gostaria de observar que, no caso de duas variáveis ​​perfeitamente correlacionadas, o PCA não deve ter nenhum problema. A matriz de covariância seria de classificação 1, portanto, haverá apenas 1 autovalor diferente de zero, portanto, apenas 1 PC. As variáveis ​​originais serão os múltiplos deste PC. O único problema pode ser a estabilidade numérica.
precisa saber é o seguinte
Na verdade, acho que você ficaria pior se tivesse variáveis ​​moderadamente correlacionadas do que quando tiver variáveis ​​realmente altamente correlacionadas. Numérico-wise também, se você estiver usando um algoritmo como NIPALS que remove PC está em ordem
JMS
Uma coisa - "altamente correlacionado" e "colinear" não são os mesmos. Se houver mais de 2 variáveis ​​envolvidas, a colinearidade não implica correlação.
Peter Flom - Restabelece Monica

Respostas:

11

A resposta pode ser dada em termos ainda mais simples: a regressão múltipla tem um passo a mais que o pca, se vista em termos de álgebra linear, e a partir do segundo passo a instabilidade passa a existir:

RLLt

L
L

Elmos de Gottfried
fonte
Isto é aproximadamente o que eu estava procurando. De fato, ter lido sua resposta me faz pensar em outra explicação: as rotações são numericamente estáveis, independentemente do determinante da matriz de covariância / correlação. E como o PCA pode ser estruturado para encontrar a melhor rotação do eixo coordenado, ele também será numericamente estável.
probabilityislogic
Sim, por exemplo, nos "fundamentos da análise fatorial" de Stan Mulaik, a estabilidade da rotação do PC (método Jacobi) foi explicitamente mencionada, se bem me lembro da fonte. Na minha própria implementação de análise fatorial, faço tudo depois de rotações: PCA, Varimax e até o "fator principal de eixo" (PAF no SPSS) pode ser reconstruído com base em rotações. Se a regressão múltipla for baseada no fator cholesky L e a parte de L que contém as variáveis ​​independentes estiver na posição PC, a multicolinearidade poderá ser ainda melhor controlada.
Gottfried Helms
3

O PCA é frequentemente um meio para atingir um fim; levando a entradas a uma regressão múltipla ou para uso em uma análise de cluster. Eu acho que no seu caso, você está falando sobre o uso dos resultados de um PCA para executar uma regressão.

Nesse caso, seu objetivo de executar um PCA é livrar-se da colinearidade e obter entradas ortogonais para uma regressão múltipla, não surpreendentemente isso é chamado de Regressão dos Componentes Principais. Aqui, se todas as suas entradas originais fossem ortogonais, a execução de um PCA forneceria outro conjunto de entradas ortogonais. Assim sendo; se você estiver executando um PCA, seria assumido que suas entradas têm multicolinearidade.

λi^ithλi^p

Referências

Johnson & Wichern (2001). Análise Estatística Multivariada Aplicada (6ª Edição). Prentice Hall.

schenectady
fonte
6
Não sei se o OP está após a PCR. O PCA também é uma boa maneira de resumir conjuntos de dados multivariados (não necessariamente para executar a redução de dados para uso subsequente em uma estrutura de modelagem), que é aproximar a matriz de VC a uma de ordem inferior, mantendo a maior parte das informações. A pergunta parece ser: estou certo ao interpretar os primeiros autovalores e PCs (como combinações lineares das variáveis ​​originais), mesmo que houvesse alguns efeitos de colinearidade? Sua resposta não parece abordar diretamente a pergunta do OP.
chl
2
boa resposta sobre o PCA em geral, mas e quando o PCA é o produto final ? Ou seja, o objetivo é produzir um único PC. @Chl é certo sobre o dinheiro com sua interpretação da questão
probabilityislogic
@chl Qual é a sua resposta à pergunta: "Estou certo ao interpretar os primeiros autovalores e PCs, mesmo que haja alguns efeitos de colinearidade?" Pergunto porque estou tentando descobrir quando é uma boa ideia manter variáveis ​​altamente correlacionadas ao realizar a redução da dimensionalidade. Às vezes, quando sabemos pela teoria que duas variáveis ​​são guiadas pelas mesmas variáveis ​​latentes, você deve remover uma das variáveis ​​para não contar o efeito da variável latente duas vezes. Estou tentando pensar em quando está tudo bem em manter as variáveis ​​correlacionadas.
Amatya