Eu sei que em uma situação de regressão, se você tem um conjunto de variáveis altamente correlacionadas, isso geralmente é "ruim" devido à instabilidade nos coeficientes estimados (a variação vai para o infinito, enquanto o determinante vai para zero).
Minha pergunta é se essa "maldade" persiste em uma situação de PCA. Os coeficientes / cargas / pesos / autovetores de um PC em particular tornam-se instáveis / arbitrários / não exclusivos à medida que a matriz de covariância se torna singular? Estou particularmente interessado no caso em que apenas o primeiro componente principal é mantido e todos os outros são descartados como "ruído" ou "outra coisa" ou "sem importância".
Eu não acho que sim, porque você terá apenas alguns componentes principais que têm zero ou quase uma variação zero.
É fácil ver que esse não é o caso simples e extremo com 2 variáveis - suponha que elas estejam perfeitamente correlacionadas. Então o primeiro PC será a relação linear exata e o segundo PC será perpindicular ao primeiro PC, com todos os valores de PC iguais a zero para todas as observações (ou seja, variação zero). Querendo saber se é mais geral.
fonte
Respostas:
A resposta pode ser dada em termos ainda mais simples: a regressão múltipla tem um passo a mais que o pca, se vista em termos de álgebra linear, e a partir do segundo passo a instabilidade passa a existir:
fonte
O PCA é frequentemente um meio para atingir um fim; levando a entradas a uma regressão múltipla ou para uso em uma análise de cluster. Eu acho que no seu caso, você está falando sobre o uso dos resultados de um PCA para executar uma regressão.
Nesse caso, seu objetivo de executar um PCA é livrar-se da colinearidade e obter entradas ortogonais para uma regressão múltipla, não surpreendentemente isso é chamado de Regressão dos Componentes Principais. Aqui, se todas as suas entradas originais fossem ortogonais, a execução de um PCA forneceria outro conjunto de entradas ortogonais. Assim sendo; se você estiver executando um PCA, seria assumido que suas entradas têm multicolinearidade.
Referências
Johnson & Wichern (2001). Análise Estatística Multivariada Aplicada (6ª Edição). Prentice Hall.
fonte