Sob quais condições a análise de componentes principais (PCA) e a análise fatorial (FA) podem produzir resultados semelhantes?
pca
factor-analysis
Estatísticas
fonte
fonte
p-m
p
m
p
são grandes; 2) o ruído é pequeno para todas as variáveis; 3) o ruído é quase igual para todas as variáveis.Respostas:
Essa é uma excelente pergunta, mas infelizmente (ou talvez felizmente?) Recentemente escrevi uma resposta muito longa em um tópico relacionado , abordando sua pergunta quase exatamente. Peço que você olhe lá e veja se isso responde à sua pergunta.
Resumidamente, se focarmos apenas nos carregamentos de PCA e FA , a diferença é que o PCA encontra para reconstruir a matriz de covariância (ou correlação) de amostra mais próximo possível: enquanto FA descobre que reconstrói apenas a parte fora da diagonal da matriz de covariância (ou correlação):Com isso, quero dizer que FA não se importa com os valores na diagonal, apenas se preocupa com a parte fora da diagonal.W C C ≈ W W ⊤ , W o f f d i um g { C } ≈ W W ⊤ . W W ⊤W W C
Com isso em mente, a resposta para sua pergunta fica fácil de ver. Se o número de variáveis (tamanho de ) for grande, a parte fora da diagonal de é quase a matriz inteira (a diagonal tem tamanho e todo o tamanho da matriz , portanto, a contribuição da diagonal é de apenas ) e, portanto, podemos esperar que o PCA se aproxime bem da FA. Se os valores diagonais são bastante pequenos, eles não desempenham muito papel para o PCA, e o PCA acaba ficando próximo da FA, exatamente como @ttnphns disse acima.C C n n 2 1 / n → 0n C C n n2 1 / n → 0
Se, por outro lado, for pequeno ou fortemente dominado pela diagonal (em particular se tiver valores muito diferentes na diagonal), o PCA terá que inclinar para reproduzir também a diagonal e então acabará sendo bem diferente da FA. Um exemplo é dado neste segmento:WC W
fonte