Quero fazer a análise de componentes principais (análise fatorial) no SPSS com base em 22 variáveis. No entanto, algumas das minhas variáveis são muito assimétricas (a assimetria calculada no SPSS varia de 2 a 80!).
Então, aqui estão as minhas questões:
Devo manter as variáveis assimétricas assim ou posso transformar as variáveis na análise de componentes principais? Se sim, como interpretaria as pontuações dos fatores?
Que tipo de transformação devo fazer? log10 ou ln?
Originalmente, meu KMO (Kaiser – Meyer – Olkin) é 0,413. Muita literatura recomenda um mínimo de 0,5. Ainda posso fazer a análise fatorial ou preciso remover variáveis para aumentar meu KMO para 0,5?
Respostas:
O problema de assimetria no PCA é o mesmo que na regressão: a cauda mais longa, se é realmente longa em relação a todo o intervalo da distribuição, na verdade se comporta como um grande outlier - puxa fortemente a linha de ajuste (componente principal no seu caso) para por sua influência aumentada; sua influência é aumentada porque está muito longe da média. No contexto do PCA, permitir variáveis muito assimétricas é bastante semelhante a fazer o PCA sem centralizar os dados (ou seja, fazer o PCA com base na matriz de cosseno em vez da matriz de correlação). É você quem decide se deve permitir que a cauda longa influencie tanto os resultados (e deixe os dados serem) ou não (e os transforme). O problema não está relacionado ao modo como você interpreta as cargas.
Como você quiser.
KMO é um índice que informa se as correlações parciais são razoavelmente pequenas para enviar dados para análise fatorial. Como na análise fatorial, geralmente esperamos que um fator carregue mais do que apenas duas variáveis. Seu KMO é baixo o suficiente. Você pode melhorar se abandonar as variáveis de análise com baixos valores individuais de KMO (estes formam a diagonal da matriz anti-imagem , você pode solicitar para mostrar essa matriz no procedimento SPSS Factor). A transformação de variáveis em menos distorcida pode recuperar o KMO? Quem sabe. Talvez. Observe que o KMO é importante principalmente no modelo de análise fatorial, e não no modelo de análise de componentes principais: na FA, você ajusta correlações aos pares, enquanto no PCA, não.
fonte
+1 a @ttnphns, só quero expandir um pouco o ponto 2. As transformações são frequentemente usadas para estabilizar a inclinação. Como o @ttnphns aponta, você os usaria antes de executar suas análises. As transformações de log fazem parte da família de transformações de poder Box-Cox. Você deve considerar uma gama mais ampla de transformações possíveis do que apenas logs (por exemplo, raiz quadrada, recíproca etc.). A escolha entre diferentes bases logarítmicas não afeta a força da transformação. Quando as pessoas vão trabalhar matematicamente com a variável transformada, os logs naturais às vezes são preferidos, pois o log natural pode facilitar a matemática em alguns casos. Se você não se importa com isso, escolha uma base que facilite a interpretação. Ou seja, cada aumento de unidade na nova escala representará uma baseaumento de quatro vezes na escala original (por exemplo, se você usasse a base de log 2, todas as unidades teriam um aumento de 2 vezes, a base 10 significa que cada unidade teria um aumento de 10 vezes, etc.), para que possa ser agradável para escolher uma base que permita que seus dados abranjam várias unidades na escala transformada.
fonte