Quais são as premissas da análise fatorial?

11

Quero verificar se realmente entendi a análise fatorial (FA) [clássica, linear] , especialmente as suposições feitas antes (e possivelmente depois) da FA.

Alguns dados devem ser inicialmente correlacionados e existe uma possível relação linear entre eles. Após a análise fatorial, os dados são normalmente distribuídos (distribuição bivariada para cada par) e não há correlação entre fatores (comuns e específicos), nem correlação entre variáveis ​​de um fator e variáveis ​​de outros fatores.

Está correto?

Sihem
fonte

Respostas:

12

Insira suposições de dados de FA linear (não estou falando aqui sobre suposições / propriedades internas do modelo de FA ou sobre a verificação da qualidade de ajuste dos resultados ).

  1. Variáveis ​​de entrada da escala (intervalo ou proporção) . Isso significa que os itens são medidas contínuas ou são conceitualizados como contínuos enquanto medidos em escala quantitativa discreta. Não há dados ordinais na FA linear ( leitura ). Dados binários também devem ser evitados (veja isto , isto ). A FA linear assume que fatores comuns e únicos latentes são contínuos . Portanto, as variáveis ​​observadas que eles carregam também devem ser contínuas.
  2. As correlações são lineares . A FA linear pode ser realizada com base em qualquer matriz de associação do tipo SSCP : correlação de Pearson, covariância, cosseno, etc. (embora alguns métodos / implementações possam restringir apenas as correlações de Pearson). Observe que estes são todos produtos de álgebra linear. Apesar de a magnitude de um coeficiente de covariância refletir mais do que apenas linearidade em relação, a modelagem em FA linear é de natureza linear mesmo quando covariâncias são usadas: variáveis são combinações lineares de fatorese assim a linearidade está implícita nas associações resultantes. Se você vir / achar que as associações não lineares prevalecem - não faça FA linear ou tente linearizá-las primeiro por algumas transformações dos dados. E não baseie a FA linear nas correlações de Spearman ou Kendall (Pt. 4 ali ).
  3. Sem discrepâncias - é como em qualquer método não robusto. A correlação de Pearson e associações semelhantes do tipo SSCP são sensíveis a valores discrepantes, portanto, tenha cuidado.
  4. Correlações razoavelmente altas estão presentes . FA é a análise da correlação - para que serve quando todas ou quase todas as correlações são fracas? - não adianta. No entanto, o que é "correlação razoavelmente alta" depende do campo de estudo. Há também uma questão interessante e variada sobre a aceitação de correlações muito altas (o efeito delas no PCA, por exemplo, é discutido aqui ). Para testar estatisticamente se os dados não estão correlacionados, o teste de esfericidade de Bartlett pode ser usado.
  5. As correlações parciais são fracas e o fator pode ser definido o suficiente . A FA assume que os fatores são mais gerais do que apenas carregar pares de itens correlacionados. De fato, existe mesmo um conselho para não extrair fatores que carregam decentemente menos de 3 itens na FA exploratória; e na FA confirmatória, apenas 3+ é uma estrutura identificada garantida . Um problema técnico de extração chamado caso Heywood tem, como uma das razões por trás, a situação de poucos itens por fator. A "medida de adequação da amostra" de Kaiser-Meyer-Olkin ( KMO ) estima para você quão fracas são as correlações parciais nos dados em relação às correlações completas; pode ser calculado para cada item e para toda a matriz de correlação.
  6. p1n observations > p variablesn>>p
  7. Distribuição . Em geral, o FA linear não requer a normalidade dos dados de entrada. Distribuições moderadamente inclinadas são aceitáveis. Bimodalidade não é uma contra-indicação. De fato, a normalidade é assumida para fatores únicos no modelo (eles servem como erros de regressão) - mas não para os fatores comuns e os dados de entrada ( consulte também). Ainda assim, a normalidade multivariada dos dados pode ser necessária como suposição adicional por alguns métodos de extração (ou seja, probabilidade máxima) e pela execução de alguns testes assintóticos.

1

ttnphns
fonte
, você poderia ler este post , parecia um pouco diferente.
Whitegirl
Se Binary data should also be avoided, para que outro método de análise fatorial podemos fazer binary data?
precisa saber é o seguinte
queridos ttnphns; Percebo que você não menciona que os dados são considerados normais e outros online indicam que a normalidade não é necessária. Minha pergunta é se as variáveis ​​latentes são consideradas normais e as observações são modeladas como uma soma ponderada dos fatores. Isso não implica uma distribuição normal nas observações? (Desculpe-me, tenho certeza de que esta é uma pergunta idiota)
user2957945
@ user2957945, o parágrafo 7 diz sobre normalidade. A suposição de normalidade é necessária para alguns métodos de extração de fatores e para executar alguns testes estatísticos que acompanham facultativamente a análise de fatores. Para sua pergunta: Sim, se os fatores forem distribuídos normalmente e os erros também, isso significará que as variáveis ​​manifestas também serão normais.
ttnphns
ah, obrigado @ttnphns; desculpe incomodá-lo - não sei bem como consegui sentir falta disso. Agradeço sua ajuda.
user2957945 16/02
9

Na maioria das vezes, a análise fatorial é realizada sem testes estatísticos per se. É muito mais subjetivo e interpretativo do que métodos como regressão, modelagem de equações estruturais e assim por diante. E geralmente são os testes inferenciais que vêm com suposições: para que os valores de p e os intervalos de confiança estejam corretos, essas suposições devem ser atendidas.

Agora, se o método para escolher o número de fatores estiver definido como o método de máxima verossimilhança, existe uma suposição: o de que as variáveis ​​inseridas na análise de fatores terão distribuições normais.

O fato de as variáveis ​​de entrada terem correlações diferentes de zero é uma espécie de suposição, pois, sem que isso seja verdade, os resultados da análise fatorial serão (provavelmente) inúteis: nenhum fator emergirá como a variável latente por trás de algum conjunto de variáveis ​​de entrada.

Na medida em que "não há correlação entre fatores (comuns e específicos) e nenhuma correlação entre variáveis ​​de um fator e variáveis ​​de outros fatores", essas não são suposições universalmente feitas pelos analistas de fatores, embora às vezes seja uma condição (ou uma aproximação) ) pode ser desejável. Este último, quando se sustenta, é conhecido como "estrutura simples".

Há outra condição que às vezes é tratada como uma "suposição": que as correlações de ordem zero (baunilha) entre variáveis ​​de entrada não sejam inundadas por grandes correlações parciais. Em resumo, o que isso significa é que os relacionamentos devem ser fortes para alguns pares e fracos para outros; caso contrário, os resultados serão "enlameados". Isso está relacionado à conveniência de uma estrutura simples e, na verdade, pode ser avaliada (embora não formalmente "testada") usando a estatística Kaiser-Meyer-Olkin ou o KMO. Valores de KMO próximos de 0,8 ou 0,9 são geralmente considerados muito promissores para resultados informativos de análise de fatores, enquanto KMOs próximos de 0,5 ou 0,6 são muito menos promissores, e aqueles abaixo de 0,5 podem levar um analista a repensar sua estratégia.

rolando2
fonte
Como eu li, que começa análise fatorial com alguma correlação com as variáveis e nós tentamos fazer essa correlação cada vez mais claro
Sihem
1
Após a aplicação da análise fatorial, se temos usado rotação ortogonal, vamos ter certeza de que não há correlação entre fatores
Sihem
2

As premissas subjacentes à análise fatorial exploratória são:
• Nível de intervalo ou razão de medição
• Amostragem aleatória
• Relação entre variáveis ​​observadas é linear
• Uma distribuição normal (cada variável observada)
• Uma distribuição normal bivariada (cada par de variáveis ​​observadas)
• Normalidade multivariada
Acima de o arquivo SAS

Chris Kelly
fonte