Como interpretar corretamente uma análise paralela na análise fatorial exploratória?

8

Alguns trabalhos científicos relatam resultados da análise paralela da análise fatorial do eixo principal de uma maneira inconsistente com meu entendimento da metodologia. o que estou perdendo? Estou errado ou eles estão?

Exemplo:

  • Dados: O desempenho de 200 seres humanos individuais foi observado em 10 tarefas. Para cada indivíduo e cada tarefa, um tem uma pontuação de desempenho. A questão agora é determinar quantos fatores são a causa do desempenho nas 10 tarefas.
  • Método: análise paralela para determinar o número de fatores a serem retidos em uma análise fatorial do eixo principal.
  • Exemplo para resultado relatado: "a análise paralela sugere que apenas fatores com valor próprio de 2,21 ou mais devem ser retidos"

Isso é um absurdo, não é?

Do artigo original de Horn (1965) e tutoriais como Hayton et al. (2004) Entendo que a análise paralela é uma adaptação do critério de Kaiser (autovalor> 1) com base em dados aleatórios. No entanto, a adaptação não substitui o ponto de corte 1 por outro número fixo, mas um valor de ponto individual para cada fator (e depende do tamanho do conjunto de dados, ou seja, 200 vezes 10 pontuações). Observando os exemplos de Horn (1965) e Hayton et al. (2004) e a saída das funções R são paralelas no pacote psiquiátrico e paralelas nos nFatorespacote, vejo que a análise paralela produz uma curva descendente no gráfico Scree para comparar com os autovalores dos dados reais. Mais como “Reter o primeiro fator se seu valor próprio for> 2,21; retenha adicionalmente o segundo se seu valor próprio for> 1,65; ... ”

Existe alguma configuração sensata, alguma escola de pensamento ou alguma metodologia que processe “análises paralelas sugerem que apenas fatores com valor próprio de 2,21 ou mais devam ser mantidos” corretos?

Referências:

Hayton, JC, Allen, DG, Scarpello, V. (2004). Decisões de retenção de fatores na análise fatorial exploratória: um tutorial sobre análise paralela. Organizational Research Methods, 7 (2): 191-205.

Horn, JL (1965). Uma justificativa e teste para o número de fatores na análise fatorial. Psychometrika, 30 (2): 179-185.

jhg
fonte
1
Aliás, Hayton et al. Exigem que a forma distributiva dos dados não correlacionados usados ​​para gerar valores próprios médios para estimar o "viés de amostragem" seja examinada e rejeitada criticamente em Dinno, A. (2009). Explorando a sensibilidade da análise paralela de Horn à forma distributiva de dados simulados. Pesquisa Comportamental Multivariada , 44 (3): 362–388.
Alexis
1
Além disso, veja o meu pacote de análise paralela paranpara R (no CRAN) e para Stata (no tipo Stata, findit paran).
Alexis

Respostas:

9

Existem duas maneiras equivalentes de expressar o critério de análise paralela. Mas primeiro preciso cuidar de um mal-entendido prevalecente na literatura.

O mal
- entendido A chamada regra de Kaiser (Kaiser na verdade não gostou da regra se você ler seu artigo de 1960) autovalores maiores que um são retidos para análise de componentes principais . Usando a chamada regra de Kaiser, os autovalores maiores que zero são retidos para a análise fatorial principal / análise de fator comum . Essa confusão surgiu ao longo dos anos porque vários autores têm sido desleixados quanto ao uso do rótulo "análise fatorial" para descrever "análise de componentes principais", quando não são a mesma coisa.

Consulte Esclarecendo suavemente a aplicação da análise paralela de Horn à análise de componentes principais versus análise fatorial para a matemática, se você precisar convencer sobre esse ponto.


pλ1,,λpnpλ¯1r,,λ¯pr

qthεq=λ¯qr1λqadj=λqεq

qth

λqadj{>1Retain.1Not retain.

λq{>λ¯qrRetain.λ¯qrNot retain.

εq=λ¯qr0=λ¯qrλqadj=λqλ¯qr

Portanto, os critérios de retenção para a análise fatorial principal / análise fatorial comum devem ser expressos como:

λqadj{>0Retain.0Not retain.

λq{>λ¯qrRetain.λ¯qrNot retain.

λqadjλqadj

mais uma coisa ...
Tanto a análise de componentes principais quanto a análise de fatores principais / análise de fatores comuns podem ser baseadas na matriz de covariância e não na matriz de correlação. Como isso altera as suposições / definições sobre a variação total e comum, apenas as segundas formas do critério de retenção devem ser usadas ao basear a análise na matriz de covariância.

Alexis
fonte
1
λ¯qrq q λ¯qr=2.21p<pλ¯rqn
Eu já tinha lido seu artigo "Esclarecendo suavemente ..." antes e gostei muito. Neste post, você declara "usar os chamados autovalores da regra de Kaiser maiores que zero são retidos para a análise fatorial principal / análise de fator comum" e no artigo há um comentário semelhante. Pela matemática, é intuitivo e faz total sentido - eu me pergunto por que não me deparei com isso antes. Existem outros artigos / livros sobre isso ou é "Esclarecendo suavemente ..." o primeiro a esclarecer gentilmente que zero é a referência apropriada para a análise fatorial principal (se alguém usar o critério de Kaiser)?
Jhg 15/05
2
λ¯rΣΣ>1>trace(Σ)/p
@jhg Kaiser escreveu "O limite inferior universalmente mais forte de [Guttman] exige que encontremos o número de raízes latentes positivas da matriz de correlação observada com múltiplos quadrados na diagonal". Mas Guttman também estava escrevendo sobre a matriz de correlação ao descrever a unidade como o limite crítico dos valores próprios de R (não exclusões de R) (parte inferior da página 154 ao topo da página 155), embora ele não elabore explicitamente a lógica para R - Exclusões, ele acena antes no meio da página 150.
Alexis
4

Sim, é possível ter um valor de 2,21 se o tamanho da amostra não for infinitamente grande (ou grande o suficiente ...). Essa é, de fato, a motivação por trás do desenvolvimento da Análise Paralela como um aumento da regra do autovalor 1.

Cito Valle 1999 nesta resposta e coloquei em itálico a parte que fala diretamente à sua pergunta.

Seleção do Número de Componentes Principais: A Variação do Critério de Erro de Reconstrução com uma Comparação com Outros Métodos † Sergio Valle, Weihua Li e S. Joe Qin * Industrial & Engineering Chemistry Research 1999 38 (11), 4389-4401

Análise Paralela . O método PA basicamente constrói modelos PCA para duas matrizes: uma é a matriz de dados original e a outra é uma matriz de dados não correlacionada com o mesmo tamanho da matriz original. Este método foi desenvolvido originalmente por Horn para melhorar o desempenho do teste Scree. Quando os valores próprios para cada matriz são plotados na mesma figura, todos os valores acima da interseção representam as informações do processo e os valores sob a interseção são considerados ruído. Devido a essa interseção, o método de análise paralela não é ambíguo na seleção do número de PCs. Para um grande número de amostras, os valores próprios para uma matriz de correlação de variáveis ​​não correlacionadas são 1. Nesse caso, o método PA é idêntico ao método AE. No entanto, quando as amostras são geradas com um número finito de amostras, os autovalores iniciais excedem 1, enquanto os autovalores finais estão abaixo de 1. É por isso que Horn sugeriu comparar os autovalores da matriz de correlação para variáveis ​​não correlacionadas com as de uma matriz de dados real baseada em o mesmo tamanho de amostra.

Deathkill14
fonte
A questão é se um valor único de 2,21 pode ser razoável. Como parte itálica em sua citação de Valle et al. mostra com um número finito de observações, sempre haverá (a meu ver) sempre uma série de autovalores decrescentes. Assim, para cada fator a partir dos dados originais, há um valor próprio diferente da análise paralela para comparar. Quando o tamanho da amostra se torna grande (dois mil indivíduos), valores próprios convergem para 1. Nesse caso, eu podia entender uma única comparação, mas apenas no nível 1.
jhg
O 2.21 aqui não significa para este conjunto de dados e o método usado (para que a combinação) 2.21 seja o ponto de corte abaixo do qual o valor próprio é muito pequeno? Não sei ao certo o que você quer dizer com "valor único". Você quer dizer como regra geral, como a regra do autovalor 1? O ponto de corte é diferente para cada análise paralela normalmente.
Deathkill14
Entendo que a análise paralela depende do número de variáveis ​​(no meu exemplo acima, "10 tarefas") e do número de observações (200 no exemplo). Portanto, é muito específico para um conjunto de dados individual e não pode haver uma regra geral como "não use o autovalor 1, use o autovalor 2.21". Isso seria um absurdo, com certeza. Mas, para um exemplo específico, com 200 observações em 10 variáveis ​​e, portanto, 1 a 10 fatores. Será que uma análise paralela sugere reter fatores com valor próprio 2,22 maiores, independentemente de o fator ser o primeiro, o segundo, o terceiro, ...?
jhg
A idéia do valor de corte (digamos 1 ou 2.21) é que abaixo desse valor a variação em um fator é essencialmente ruído (essencialmente ruído, pois esse é o valor próprio da linha de base da matriz aleatória). Normalmente, os fatores são classificados do mais alto ao mais baixo valor próprio, mas isso talvez seja importante principalmente para interpretabilidade. Portanto, o "primeiro segundo terço" não é necessariamente fixo em pedra. De qualquer forma, presume-se que os fatores com valores próprios maiores que 2,21 contenham mais informações que ruído. Mantenha-os.
Deathkill14
2

Seu exemplo certamente não é claro, mas também pode não ser um absurdo. Resumidamente, considere a possibilidade de o exemplo basear sua regra de decisão no valor próprio do primeiro fator simulado que é maior que o fator real do mesmo número de fator. Aqui está outro exemplo em :

d8a=data.frame(y=rbinom(99,1,.5),x=c(rnorm(50),rep(0,49)),z=rep(c(1,0),c(50,49)))
require(psych);fa.parallel(d8a)

Os dados são aleatórios e existem apenas três variáveis; portanto, um segundo fator certamente não faria sentido, e é isso que a análise paralela indica. * Os resultados também corroboram o que a @Alexis disse sobre " The Misunderstanding ".

Digamos que interprete esta análise da seguinte forma: “A análise paralela sugere que apenas fatores [ nãocomponentes] com valor próprio igual a 1,2E-6 ou mais. Isso faz certo sentido, porque esse é o valor do primeiro autovalor simulado que é maior que o autovalor "real" e todos os autovalores subsequentes necessariamente diminuem. É uma maneira incômoda de relatar esse resultado, mas é pelo menos consistente com o raciocínio de que se deve olhar muito ceticamente para qualquer fator (ou componente) com valores próprios que não sejam muito maiores que os valores próprios correspondentes de dados simulados e não correlacionados. Esse deve ser o caso de forma consistente após a primeira instância no gráfico de scree em que o autovalor simulado excede o autovalor real correspondente. No exemplo acima, o terceiro fator simulado é muito ligeiramente menor que o terceiro fator "real",


* Nesse caso, R diz: "A análise paralela sugere que o número de fatores = 1 e o número de componentes = 2", mas espero que a maioria de nós saiba que não confia no software para interpretar nossos gráficos para nós ... eu definitivamente não reteria o segundo componente apenas porque é infinitamente maior que o segundo componente simulado.

Nick Stauner
fonte
1
Ótima idéia criativa de como interpretar a frase. Eu considerei isso mais do que brevemente. Não é o caso.
jhg
Oi. Soa como um artigo estranho (s) que você está trabalhando com ...
Nick Stauner