O que os primeiros fatores

12

Na análise de componentes principais, os primeiros componentes principais são as direções ortogonais k com a variação máxima. Em outras palavras, o primeiro componente principal é escolhido para ser a direção da variação máxima, o segundo componente principal é escolhido para ser a direção ortogonal à primeira com a variação máxima e assim por diante.kk

Existe uma interpretação semelhante para a análise fatorial? Por exemplo, estou pensando que os primeiros fatores são os que melhor explicam os componentes fora da diagonal da matriz de correlação original (no sentido de, digamos, erro ao quadrado entre a matriz de correlação original e a matriz de correlação definida pelo fatores). Isso é verdade (ou há algo semelhante que possamos dizer)?k

raegtin
fonte
Embora eu concorde com quase tudo o que o @NRH escreveu em sua resposta (+1), a resposta curta à sua última pergunta é que sim, é exatamente verdade . Observe que os fatores de FA também podem ser escolhidos para serem ortogonais, como no PCA. A diferença está apenas na reprodução de toda a matriz de correlação (PCA) versus na reprodução apenas de sua parte fora da diagonal (FA). Para uma discussão mais aprofundada, consulte minhas respostas em Condições de similaridade da análise de fatores de risco e análise de fatores e existe algum bom motivo para usar o PCA em vez do EFA?
ameba diz Restabelecer Monica
Não tenho certeza se a FA realmente "minimiza as covariâncias parciais ao quadrado da soma dos quadrados", porque existe um critério de rotação / extração chamado "MinRes" cuja lógica é exatamente essa. Então, por que dar um nome distinto? Talvez as rotinas-padrão para encontrar a solução de FA obtenham matematicamente resultados idênticos se o número de fatores k reproduzir as covariâncias perfeitamente -mas como k é uma estimativa, pode ser que, no caso de imperfeição / subestimação, a solução de FA não seja idêntico à solução MinRes. Bem, eu digo: pode ser - eu gostaria de ver uma declaração explícita.
Gottfried Helms

Respostas:

7

O PCA é principalmente uma técnica de redução de dados em que o objetivo é obter uma projeção de dados em um espaço dimensional inferior. Dois objetivos equivalentes são maximizar iterativamente a variação ou minimizar o erro de reconstrução. Isso é realmente elaborado em alguns detalhes nas respostas a esta pergunta anterior .

Por outro lado, a análise fatorial é primariamente um modelo generativo de um vetor de dados dimensional X, dizendo que X = A S + ϵ onde S é o vetor dimensional q de fatores latentes, A é p × k com k < p e ϵ é um vetor de erros não correlacionados. A matriz A é a matriz de cargas fatoriais . Isso produz uma parametrização especial da matriz de covariância como Σ = A A T + DpX

X=AS+ϵ
SqAp×kk<pϵA
Σ=AAT+D
O problema com este modelo é que ele é superparametrizado. O mesmo modelo é obtido se é substituída por um R em qualquer k x k ortogonal matriz R , o que significa que os próprios factores não são únicos. Existem várias sugestões para resolver este problema, mas não há não uma única solução que lhe dá fatores com o tipo de interpretação que você pedir. Uma escolha popular é a rotação varimax . No entanto, o critério utilizado apenas determina a rotação. O espaço coluna gerado por A não muda, e uma vez que este faz parte da parametrização, é determinado por qualquer método é usado para estimar ΣAARk×kRUMAΣ - por máxima probabilidade em um modelo gaussiano, digamos.

kUMAD=σ2EuUMAq

kkk

NRH
fonte
1
Sim, entendo que não há uma escolha única de fatores k (já que podemos rotacioná-los e obter o mesmo modelo). Mas alguma escolha de fatores k selecionados pela análise fatorial faz algum tipo de "explicação máxima da correlação"?
raegtin
1
@raegtin, editei a resposta para explicar meu ponto de vista, de que este é um modelo da matriz de covariância. Qualquer escolha de fatores obtidos por rotações é, a meu ver, igualmente boa ou ruim para explicar as covariâncias nos dados, pois elas produzem a mesma matriz de covariância.
NRH 28/06
1
Obrigado pela atualização, esta é uma ótima explicação da FA! Então, quando você diz "o objetivo do modelo é explicar melhor a covariância", você quer dizer que os fatores k realmente maximizam a quantidade de covariância explicada?
raegtin
1
@raegtin, sim, eu vejo o modelo como um modelo da matriz de covariância, e quando você estima o modelo, é justo dizer que você está maximizando a quantidade de covariância explicada.
NRH 28/06
@raegtin e NRH (+1 btw): apenas para esclarecer. Acima, dois comentários estão corretos se, por "covariância", entendermos a "parte fora da diagonal da matriz de covariância".
ameba diz Restabelecer Monica
3

@RAEGTIN, acredito que você pensa certo. Após a extração e a rotação prévia, cada fator sucessivo responde cada vez menos à covariância / correlação, assim como cada componente sucessivo representa cada vez menos variações: nos dois casos, as colunas de uma matriz de carregamento A vão na ordem de queda de soma de elementos ao quadrado (cargas) neles. A carga é fator de correlação e variável; portanto, pode-se dizer que o 1º fator explica a maior porção de r geral "quadrado" na matriz R , o segundo fator é o segundo aqui, etc. A diferença entre FA e PCA, no entanto, na predição de correlações por cargas é a seguinte: FA é "calibrado" para restaurar Rmuito bem com apenas m fatores extraídos (m fatores <variáveis ​​p), enquanto o PCA é rude em restaurá-lo por m componentes, - ele precisa de todos os componentes p para restaurar R sem erros.

PS Apenas para adicionar. Na FA, um valor de carregamento "consiste" em comunalidade limpa (uma parte da variação responsável pela correlação), enquanto na APC uma carga é uma mistura de comunalidade e unicidade da variável e, portanto, capta variabilidade.

ttnphns
fonte