Diferentemente da análise de componentes principais, as soluções para os modelos de análise fatorial não são necessariamente aninhadas. Ou seja, as cargas (por exemplo) para o primeiro fator não serão necessariamente idênticas quando apenas o primeiro fator for extraído versus quando os dois primeiros fatores forem.
Com isso em mente, considere um caso em que você tenha um conjunto de variáveis manifestas altamente correlacionadas e (pelo conhecimento teórico de seu conteúdo) deva ser conduzido por um único fator. Imagine que as análises fatoriais exploratórias (por qualquer métrica que você preferir: análise paralela, scree plot, valores de eigen> 1, etc.) sugerem fortemente que existem fatores: um fator primário grande e um fator secundário pequeno. Você está interessado em usar as variáveis manifestas e a solução fatorial para estimar (ou seja, obter pontuações fatoriais) os valores dos participantes para o primeiro fator. Nesse cenário, seria melhor:
- Ajuste um modelo de fator para extrair apenas fator e obter pontuações de fator (etc.) ou
- encaixar um modelo de fator para extrair os dois fatores, obter pontuações dos fatores, mas jogar fora / ignorar as pontuações do segundo fator?
Para qual for a melhor prática, por quê? Existe alguma pesquisa sobre esse assunto?
fonte
Is is always better to extract more factors when they exist?
não é muito claro. É sempre melhor extrair o maior número possível. O ajuste insuficiente ou excessivo distorce a estrutura latente "verdadeira" devido à natureza multivariada e não aninhada da análise mencionada por você. O problema é que não sabemos exatamente quantos fatores existem em nossos dados. E se esses dados têm tantos quantos a população possui.Respostas:
A questão a que você está se referindo é o tópico 'unidimensionalidade aproximada' ao criar instrumentos de teste psicológico, o que foi discutido bastante na literatura nos anos 80. A inspiração existia no passado porque os profissionais queriam usar modelos tradicionais da teoria de resposta ao item (TRI) para seus itens e, na época, esses modelos de TRI eram limitados exclusivamente à medição de traços unidimensionais. Portanto, esperava-se que a multidimensionalidade do teste fosse um incômodo que (esperançosamente) pudesse ser evitado ou ignorado. Isso também levou à criação das técnicas de análise paralela na análise fatorial (Drasgow e Parsons, 1983) e nos métodos DETECT.
As conseqüências de ignorar características / fatores adicionais, além de obviamente ajustar o modelo errado aos dados (ou seja, ignorar informações sobre desajuste em potencial do modelo; embora possa, é claro, ser trivial), é que as estimativas de características no fator dominante se tornarão tendenciosas e portanto, menos eficiente. É claro que essas conclusões dependem de como as propriedades das características adicionais (por exemplo, elas estão correlacionadas com a dimensão primária, possuem cargas fortes, quantas cargas cruzadas existem etc.), mas o tema geral é que estimativas secundárias para obter pontuações de características primárias será menos eficaz. Consulte o relatório técnico aqui para obter uma comparação entre um modelo unidimensional não ajustado e um modelo de dois fatores; o relatório técnico parece ser exatamente o que você procura.
De uma perspectiva prática, o uso de critérios de informação pode ser útil ao selecionar o modelo mais ideal, bem como as estatísticas de ajuste do modelo em geral (RMSEA, CFI, etc), porque as consequências de ignorar informações multidimensionais afetarão negativamente o ajuste geral aos dados. . Mas, é claro, o ajuste geral do modelo é apenas uma indicação do uso de um modelo inadequado para os dados disponíveis; é perfeitamente possível que formas funcionais inadequadas sejam usadas, como não linearidade ou falta de monotonicidade, para que os respectivos itens / variáveis sempre sejam sempre inspecionados.
Veja também :
Drasgow, F. e Parsons, CK (1983). Aplicação de modelos de teoria unidimensional de resposta a itens para dados multidimensionais. Medida Psicológica Aplicada, 7 (2), 189-199.
Drasgow, F. & Lissak, RI (1983). Análise paralela modificada: um procedimento para examinar a dimensionalidade latente das respostas aos itens com pontuação dicotômica. Jornal de Psicologia Aplicada, 68, 363-373.
Levent Kirisci, Tse-chi Hsu e Lifa Yu (2001). Robustez dos Programas de Estimativa de Parâmetros de Itens para Suposições de Unidimensionalidade e Normalidade. Medida Psicológica Aplicada, 25 (2), 146-162.
fonte
Se você realmente não deseja usar o segundo fator, basta usar um modelo de um fator. Mas estou perplexo com sua observação de que as cargas para o primeiro fator mudarão se você usar um segundo fator.
Vamos lidar com essa afirmação primeiro. Se você usar componentes principais para extrair os fatores e não usar rotação de fatores, as cargas não serão alteradas - sujeitas, talvez, à escala (ou inversão completa: se é um fator, então é uma maneira legítima de expressá-lo como bem). Se você usar extração com probabilidade máxima e / ou rotação de fatores, as cargas poderão depender do número de fatores que você extraiu.x −x
A seguir, para a explicação dos efeitos das rotações. Como não sou bom em desenhar, tentarei convencê-lo a usar palavras. Assumirei que seus dados são (aproximadamente) normais, de modo que as pontuações dos fatores também são aproximadamente normais. Se você extrai um fator, obtém uma distribuição normal unidimensional; se extrai dois fatores, obtém uma distribuição normal bivariada.
A densidade de uma distribuição bivariada parece mais ou menos como um chapéu, mas a forma exata depende da escala e do coeficiente de correlação. Então, vamos supor que os dois componentes tenham variação de unidade. No caso não correlacionado, você obtém um bom sombrero, com curvas de nível que parecem círculos. Uma foto está aqui . A correlação "esmaga" o chapéu, para que ele se pareça mais com um chapéu de Napoleão .
Vamos supor que seu conjunto de dados original tenha três dimensões e você deseja extrair dois fatores disso. Vamos também manter a normalidade. Nesse caso, a densidade é um objeto quadridimensional, mas as curvas de nível são tridimensionais e podem pelo menos ser visualizadas. No caso não correlacionado, as curvas de nível são esféricas (como uma bola de futebol). Na presença de correlação, as curvas de nível serão novamente distorcidas, transformando-se em uma bola de futebol, provavelmente uma subinflada, de modo que a espessura nas costuras seja menor que a espessura nas outras direções.
Se você extrair dois fatores usando o PCA, achatará completamente a bola de futebol em uma elipse (e projetará todos os pontos de dados no plano da elipse). O primeiro fator não rotacionado corresponde ao eixo longo da elipse, o segundo fator é perpendicular a ele (ou seja, o eixo curto). A rotação escolhe um sistema de coordenadas nessa elipse para satisfazer outros critérios úteis.
Se você extrair apenas um único fator, a rotação será impossível, mas você terá a garantia de que o fator PCA extraído corresponde ao eixo longo da elipse.
fonte
fa()
por exemplo, não os utilizam há anos. Outros métodos produzirão soluções não aninhadas, o que é fácil de verificar com software e um conjunto de dados de FA. Para fins de comparabilidade, você pode considerar as duas soluções sem rotação. FWIW, eu estou familiarizado com a idéia de distribuições MVN esféricas e elípticas.Por que você não usaria algo como lavaan ou MPlus para executar dois modelos (modelo unidimensional e um modelo de duas dimensões alinhados aos resultados da EFA) e comparar os índices de ajuste relativo e absoluto dos diferentes modelos (ou seja, critérios de informação - AIC e BIC, RMSEA, SRMR, CFI / TLI)? Observe que, se você seguir esse caminho, não desejaria usar o PCA para o EFA, mas sim os principais fatores. Alguém realmente preocupado com a medida incorporaria o CFA em um modelo completo de equações estruturais.
Edit: A abordagem que estou pedindo para você considerar é mais sobre descobrir quantas variáveis latentes realmente explicam o conjunto de itens. Se você deseja obter a melhor estimativa do fator maior, eu votaria no uso das pontuações fatoriais do modelo CFA com o melhor ajuste, o que for.
fonte