As transformações de dados em dados não normais são necessárias para uma análise fatorial exploratória ao usar o método de extração do fator principal de eixo?

9

Estou desenvolvendo um questionário para medir quatro fatores que constituem espiritualidade e gostaria de fazer a seguinte pergunta:

As transformações de dados em dados não normais são necessárias para uma análise fatorial exploratória ao usar o método de extração do fator principal de eixo?

Eu terminei de rastrear meus dados ontem e constatei que 3 das 20 perguntas estão inclinadas positivamente, enquanto 1 em 20 está inclinado negativamente (Pergunta 6 = 4,88, Pergunta 9 = 7,22, Pergunta 12 = 11,11, Pergunta 16 = -6,26). Também descobri que 1 das perguntas (em 20) é leptocúrtica (Questão 12 = 12.21).

Escolhi o método de extração de fatoração de eixo principal porque li que ele é usado em "dados gravemente não normais", enquanto a probabilidade máxima é usada em dados normais, mas:

  1. Como saber se meus dados estão "severamente" fora do normal?

  2. Se meus dados forem "severamente não normais", isso significa que eu posso deixar os dados como estão agora (não transformá-los) e analisá-los usando o método de extração de fator de eixo principal? Ou preciso transformar os dados antes de prosseguir com o EFA?

  3. Se eu precisar transformar os dados, que transformações eu usaria para itens inclinados positivamente, inclinados negativamente e leptocúrticos?

Madeline
fonte

Respostas:

10

A análise fatorial é essencialmente um modelo de regressão linear (restrito). Nesse modelo, cada variável analisada é a variável dependente, os fatores comuns são os IVs e o fator único implícito serve como termo de erro. (O termo constante é definido como zero devido à centralização ou padronização implícitas no cálculo de covariâncias ou correlações.) Portanto, exatamente como na regressão linear, poderia existir uma suposição "forte" de normalidade - IVs (fatores comuns) são normais multivariados e erros (fator único) são normais, o que leva automaticamente a que o DV seja normal; e suposição "fraca" de normalidade - erros (fator único) são normais apenas, portanto o DV não precisa ser normal. Tanto na regressão quanto na AF, geralmente admitimos suposições "fracas" porque são mais realistas.

Entre os métodos clássicos de extração de AF, apenas o método de máxima verossimilhança, por se afastar das características da população, afirma que as variáveis ​​analisadas são multivariadas normais. Métodos como eixos principais ou resíduos mínimos não exigem essa suposição "forte" (embora você possa fazê-lo de qualquer maneira).

Lembre-se de que, mesmo que suas variáveis ​​sejam normais separadamente, isso não garante necessariamente que seus dados sejam multivariados normais.

Vamos aceitar a suposição "fraca" de normalidade. Qual é a ameaça potencial proveniente de dados fortemente distorcidos, como o seu, então? É outliers. Se a distribuição de uma variável é fortemente assimétrica, a cauda mais longa se torna mais influente na correlação ou covariância computacional e, simultaneamente, provoca apreensão sobre se ainda mede o mesmo construto psicológico (o fator) que a cauda mais curta. Pode ser cauteloso comparar se as matrizes de correlação construídas na metade inferior e na metade superior da escala de classificação são semelhantes ou não. Se eles são semelhantes o suficiente, você pode concluir que as duas caudas medem a mesma coisa e não transformam suas variáveis. Caso contrário, você deve considerar a transformação ou alguma outra ação para neutralizar o efeito da cauda longa "outlier".

As transformações são muitas. Por exemplo, aumentar para uma potência> 1 ou exponenciação é usado para dados inclinados para a esquerda e potência <1 ou logaritmo - para inclinado para a direita. Minha própria experiência diz que a chamada transformação ótima via PCA categórica realizada antes da FA é quase sempre benéfica, pois geralmente leva a fatores mais claros e interpretáveis ​​na FA; sob a suposição de que o número de fatores é conhecido, ele transforma seus dados de maneira não linear, de modo a maximizar a variação geral contabilizada por esse número de fatores.

ttnphns
fonte
Obrigado pela sua resposta! E você recomendaria remover a pergunta 12, uma vez que ela é distorcida positivamente e leptocúrtica, ou seria melhor deixá-la e transformá-la?
Madeline
Eu me absteria de aconselhamento direto, não estando no seu lugar. Falando de maneira geral, as perguntas cronicamente muito distorcidas (= muito difíceis ou muito fáceis) ou leptocúrticas (insensíveis a diferenças entre os entrevistados típicos) são psicometricamente "ruins" e valem a pena revisar.
precisa saber é o seguinte
1

Acabei de postar o que aprendi com Yong e Pearce (2013).

Para realizar uma análise fatorial, deve haver normalidade univariada e multivariada nos dados (Child, 2006)

Yong, AG; e Pearce, S. (2013). Um guia para iniciantes de análise fatorial: Focando na análise fatorial exploratória. Tutoriais em métodos quantitativos para psicologia , 9 (2), 79-94. DOI: 10.20982 / tqmp.09.2.p079

Chris Kelly
fonte