Na análise de componentes principais, os primeiros componentes principais são as direções ortogonais k com a variação máxima. Em outras palavras, o primeiro componente principal é escolhido para ser a direção da variação máxima, o segundo componente principal é escolhido para ser a direção ortogonal à primeira com a variação máxima e assim por diante.
Existe uma interpretação semelhante para a análise fatorial? Por exemplo, estou pensando que os primeiros fatores são os que melhor explicam os componentes fora da diagonal da matriz de correlação original (no sentido de, digamos, erro ao quadrado entre a matriz de correlação original e a matriz de correlação definida pelo fatores). Isso é verdade (ou há algo semelhante que possamos dizer)?
pca
factor-analysis
raegtin
fonte
fonte
Respostas:
O PCA é principalmente uma técnica de redução de dados em que o objetivo é obter uma projeção de dados em um espaço dimensional inferior. Dois objetivos equivalentes são maximizar iterativamente a variação ou minimizar o erro de reconstrução. Isso é realmente elaborado em alguns detalhes nas respostas a esta pergunta anterior .
Por outro lado, a análise fatorial é primariamente um modelo generativo de um vetor de dados dimensional X, dizendo que X = A S + ϵ onde S é o vetor dimensional q de fatores latentes, A é p × k com k < p e ϵ é um vetor de erros não correlacionados. A matriz A é a matriz de cargas fatoriais . Isso produz uma parametrização especial da matriz de covariância como Σ = A A T + Dp X
fonte
@RAEGTIN, acredito que você pensa certo. Após a extração e a rotação prévia, cada fator sucessivo responde cada vez menos à covariância / correlação, assim como cada componente sucessivo representa cada vez menos variações: nos dois casos, as colunas de uma matriz de carregamento A vão na ordem de queda de soma de elementos ao quadrado (cargas) neles. A carga é fator de correlação e variável; portanto, pode-se dizer que o 1º fator explica a maior porção de r geral "quadrado" na matriz R , o segundo fator é o segundo aqui, etc. A diferença entre FA e PCA, no entanto, na predição de correlações por cargas é a seguinte: FA é "calibrado" para restaurar Rmuito bem com apenas m fatores extraídos (m fatores <variáveis p), enquanto o PCA é rude em restaurá-lo por m componentes, - ele precisa de todos os componentes p para restaurar R sem erros.
PS Apenas para adicionar. Na FA, um valor de carregamento "consiste" em comunalidade limpa (uma parte da variação responsável pela correlação), enquanto na APC uma carga é uma mistura de comunalidade e unicidade da variável e, portanto, capta variabilidade.
fonte