A análise tradicional (linear) de PCA e fator exige dados em nível de escala (intervalo ou razão). Frequentemente, assume-se que os dados de classificação do tipo likert estão no nível da escala, porque esses dados são mais fáceis de analisar. E a decisão às vezes é justificada estatisticamente, especialmente quando o número de categorias ordenadas é maior que 5 ou 6. (Embora logicamente a questão do tipo de dados e o número de níveis de escala sejam distintos).
E se você preferir tratar a escala likt politômica como ordinal? Ou você tem dados dicotômicos? É possível fazer análise fatorial exploratória ou PCA para eles?
Atualmente, existem três abordagens principais para executar a AF (incluindo o PCA como seu caso especial) em variáveis ordinais ou binárias categóricas (leia também este relato sobre o caso de dados binários e essa consideração sobre o que pode ser feito com a escala ordinal).
Abordagem ideal de dimensionamento (uma família de aplicativos ). Também chamado PCA categórico (CatPCA) ou FA não linear. No CatPCA, as variáveis ordinais são transformadas monotonicamente ("quantificadas") em suas versões de intervalo "subjacentes", com o objetivo de maximizar a variação explicada pelo número selecionado de componentes principais extraídos desses dados de intervalo. O que torna o método abertamente orientado por objetivos (em vez de orientado por teoria) e importante para decidir antecipadamente o número de componentes principais. Se a FA verdadeira for necessária em vez da PCA, a FA linear usual poderá ser executada naturalmente nessas variáveis transformadas geradas pelo CatPCA. Com variáveis binárias, o CatPCA (infelizmente?) Se comporta da maneira usual da PCA, ou seja, como se fossem variáveis contínuas. O CatPCA também aceita variáveis nominais e qualquer mistura de tipos de variáveis (agradável).
Abordagem variável subjacente inferida . Também conhecido como PCA / FA realizado em correlações tetracóricas (para dados binários) ou policóricas (para dados ordinais). A distribuição normal é assumida para a variável contínua subjacente (então binned) para cada variável de manifesto. Em seguida, a AF clássica é aplicada para analisar as correlações acima mencionadas. A abordagem permite facilmente uma mistura de intervalos, dados ordinais e binários. Uma desvantagem da abordagem é que - ao inferir as correlações - ela não tem pistas da distribuição multivariada das variáveis subjacentes - pode "conceber" no máximo distribuições bivariadas, portanto, não se baseia em informações completas.
Abordagem da teoria da resposta ao item (TRI). Às vezes também chamado de análise logística de características latentes ou FA . Um modelo muito próximo ao modelo de logit binário (para dados binários) ou de probabilidades de log proporcional (para dados ordinais) é aplicado. O algoritmo não está vinculado à decomposição de uma matriz de correlação, portanto está um pouco distante da AF tradicional, ainda assim, é uma FA categórica de boa-fé. "Parâmetros de discriminação" correspondem intimamente às cargas de FA, mas "dificuldades" substituem a noção de "singularidades" de FA. A certeza da adequação da TRI diminui rapidamente à medida que o número de fatores cresce, o que é um lado problemático dessa abordagem. A TRI é extensível à sua maneira de incorporar variáveis mistas de intervalo misto + binário + ordinal e possivelmente nominais.
As pontuações fatoriais nas abordagens (2) e (3) são mais difíceis de estimar do que as pontuações fatoriais na AF clássica ou na abordagem (1). No entanto, existem vários métodos (métodos esperados ou máximos aposteriori, método de máxima verossimilhança, etc.).
As premissas do modelo de análise fatorial são basicamente as mesmas nas três abordagens que na AF tradicional. A abordagem (1) está disponível em R, SPSS, SAS (na minha opinião). As abordagens (2) e (3) são implementadas principalmente em pacotes especializados de variáveis latentes - Mplus, LISREL, EQS.
Abordagem polinomial. Isso ainda não foi desenvolvido na íntegra. Os componentes principais podem ser modelados como combinações polinomiais de variáveis (o uso de polinômios é uma maneira popular de modelar efeitos não lineares de regressores ordinais). Além disso, as categorias observadas, por sua vez, podem ser modeladas como manifestações discretas de combinações polinomiais de fatores latentes.
Existe um campo florescente de técnicas não lineares de redução de dimensionalidade; alguns deles podem ser aplicados ou adotados para trabalhar com dados categóricos (especialmente binários ou após a binarização em um conjunto de dados esparsos de alta dimensão).
r
Veja também isto , isto , isto , isto , isto , isto , isto , isto .