Alguns trabalhos científicos relatam resultados da análise paralela da análise fatorial do eixo principal de uma maneira inconsistente com meu entendimento da metodologia. o que estou perdendo? Estou errado ou eles estão?
Exemplo:
- Dados: O desempenho de 200 seres humanos individuais foi observado em 10 tarefas. Para cada indivíduo e cada tarefa, um tem uma pontuação de desempenho. A questão agora é determinar quantos fatores são a causa do desempenho nas 10 tarefas.
- Método: análise paralela para determinar o número de fatores a serem retidos em uma análise fatorial do eixo principal.
- Exemplo para resultado relatado: "a análise paralela sugere que apenas fatores com valor próprio de 2,21 ou mais devem ser retidos"
Isso é um absurdo, não é?
Do artigo original de Horn (1965) e tutoriais como Hayton et al. (2004) Entendo que a análise paralela é uma adaptação do critério de Kaiser (autovalor> 1) com base em dados aleatórios. No entanto, a adaptação não substitui o ponto de corte 1 por outro número fixo, mas um valor de ponto individual para cada fator (e depende do tamanho do conjunto de dados, ou seja, 200 vezes 10 pontuações). Observando os exemplos de Horn (1965) e Hayton et al. (2004) e a saída das funções R são paralelas no pacote psiquiátrico e paralelas nos nFatorespacote, vejo que a análise paralela produz uma curva descendente no gráfico Scree para comparar com os autovalores dos dados reais. Mais como “Reter o primeiro fator se seu valor próprio for> 2,21; retenha adicionalmente o segundo se seu valor próprio for> 1,65; ... ”
Existe alguma configuração sensata, alguma escola de pensamento ou alguma metodologia que processe “análises paralelas sugerem que apenas fatores com valor próprio de 2,21 ou mais devam ser mantidos” corretos?
Referências:
Hayton, JC, Allen, DG, Scarpello, V. (2004). Decisões de retenção de fatores na análise fatorial exploratória: um tutorial sobre análise paralela. Organizational Research Methods, 7 (2): 191-205.
Horn, JL (1965). Uma justificativa e teste para o número de fatores na análise fatorial. Psychometrika, 30 (2): 179-185.
paran
para R (no CRAN) e para Stata (no tipo Stata, findit paran).Respostas:
Existem duas maneiras equivalentes de expressar o critério de análise paralela. Mas primeiro preciso cuidar de um mal-entendido prevalecente na literatura.
O mal
- entendido A chamada regra de Kaiser (Kaiser na verdade não gostou da regra se você ler seu artigo de 1960) autovalores maiores que um são retidos para análise de componentes principais . Usando a chamada regra de Kaiser, os autovalores maiores que zero são retidos para a análise fatorial principal / análise de fator comum . Essa confusão surgiu ao longo dos anos porque vários autores têm sido desleixados quanto ao uso do rótulo "análise fatorial" para descrever "análise de componentes principais", quando não são a mesma coisa.
Consulte Esclarecendo suavemente a aplicação da análise paralela de Horn à análise de componentes principais versus análise fatorial para a matemática, se você precisar convencer sobre esse ponto.
Portanto, os critérios de retenção para a análise fatorial principal / análise fatorial comum devem ser expressos como:
mais uma coisa ...
Tanto a análise de componentes principais quanto a análise de fatores principais / análise de fatores comuns podem ser baseadas na matriz de covariância e não na matriz de correlação. Como isso altera as suposições / definições sobre a variação total e comum, apenas as segundas formas do critério de retenção devem ser usadas ao basear a análise na matriz de covariância.
fonte
Sim, é possível ter um valor de 2,21 se o tamanho da amostra não for infinitamente grande (ou grande o suficiente ...). Essa é, de fato, a motivação por trás do desenvolvimento da Análise Paralela como um aumento da regra do autovalor 1.
Cito Valle 1999 nesta resposta e coloquei em itálico a parte que fala diretamente à sua pergunta.
Seleção do Número de Componentes Principais: A Variação do Critério de Erro de Reconstrução com uma Comparação com Outros Métodos † Sergio Valle, Weihua Li e S. Joe Qin * Industrial & Engineering Chemistry Research 1999 38 (11), 4389-4401
fonte
Seu exemplo certamente não é claro, mas também pode não ser um absurdo. Resumidamente, considere a possibilidade de o exemplo basear sua regra de decisão no valor próprio do primeiro fator simulado que é maior que o fator real do mesmo número de fator. Aqui está outro exemplo em r :
Os dados são aleatórios e existem apenas três variáveis; portanto, um segundo fator certamente não faria sentido, e é isso que a análise paralela indica. * Os resultados também corroboram o que a @Alexis disse sobre " The Misunderstanding ".
Digamos que interprete esta análise da seguinte forma: “A análise paralela sugere que apenas fatores [ nãocomponentes] com valor próprio igual a 1,2E-6 ou mais. Isso faz certo sentido, porque esse é o valor do primeiro autovalor simulado que é maior que o autovalor "real" e todos os autovalores subsequentes necessariamente diminuem. É uma maneira incômoda de relatar esse resultado, mas é pelo menos consistente com o raciocínio de que se deve olhar muito ceticamente para qualquer fator (ou componente) com valores próprios que não sejam muito maiores que os valores próprios correspondentes de dados simulados e não correlacionados. Esse deve ser o caso de forma consistente após a primeira instância no gráfico de scree em que o autovalor simulado excede o autovalor real correspondente. No exemplo acima, o terceiro fator simulado é muito ligeiramente menor que o terceiro fator "real",
* Nesse caso, R diz: "A análise paralela sugere que o número de fatores = 1 e o número de componentes = 2", mas espero que a maioria de nós saiba que não confia no software para interpretar nossos gráficos para nós ... eu definitivamente não reteria o segundo componente apenas porque é infinitamente maior que o segundo componente simulado.
fonte