Fazendo análise de componente principal ou análise fatorial em dados binários

30

Eu tenho um conjunto de dados com um grande número de respostas Sim / Não. Posso usar componentes principais (PCA) ou qualquer outra análise de redução de dados (como análise fatorial) para esse tipo de dados? Por favor, informe como eu faço isso usando o SPSS.

Cathy
fonte
1
O que fez você considerar o PCA especificamente em oposição à análise discriminante?
Chris Simokat
1
Veja também: stats.stackexchange.com/a/186026/3277
ttnphns

Respostas:

39

A questão das variáveis ​​dicotômicas ou binárias na análise PCA ou fator é eterna. Existem opiniões polares de "é ilegal" a "está tudo bem", através de algo como "você pode fazê-lo, mas terá muitos fatores". Minha opinião atual é a seguinte. Primeiro, considero que a variável observada binária é discreta e que é inadequado tratá-la de qualquer maneira como contínua. Essa variável discreta pode gerar fator ou componente principal?

  • Análise fatorial (FA). O fator por definição é um latente contínuo que carrega variáveis ​​observáveis ​​( 1 , 2 ). Conseqüentemente, o último não pode ser senão contínuo (ou intervalo, na prática) quando carregado o suficiente por fator. Além disso, a FA, devido à sua natureza regressiva linear, pressupõe que a parte restante - não carregada -, chamada uniqness, também seja contínua e, portanto, as variáveis ​​observáveis ​​devem ser contínuas mesmo quando carregadas um pouco. Assim, variáveis ​​binárias não podem se legislar na FA. No entanto, existem pelo menos duas maneiras: (A) Assuma as dicotomias à medida que as variáveis ​​subjacentes continuam rugosas e faça FA com correlações tetracóricas - em vez de Pearson -; (B) Suponha que o fator carrega uma variável dicotômica não linearmente, mas logisticamente e faça a Análise de Características Latentes (também conhecida como Teoria da Resposta ao Item) em vez da FA linear. Leia mais .

  • Análise de Componentes Principais (PCA). Embora tenha muito em comum com a FA, o PCA não é uma modelagem, mas apenas um método de resumo. Os componentes não carregam variáveis ​​no mesmo sentido conceitual que os fatores carregam variáveis. No PCA, os componentes carregam variáveis e as variáveis ​​carregam componentes. Essa simetria ocorre porque o PCA em si é apenas uma rotação de variáveis-eixos no espaço. As variáveis ​​binárias não fornecem continuidade verdadeira para um componente por si mesmas - já que não são contínuas, mas a pseudocontinuidade pode ser fornecida pelo ângulo de rotação da PCA que pode parecer qualquer. Assim, no PCA, e em contraste com o FA, é possível obter dimensões aparentemente contínuas (eixos rotados ) com variáveis ​​puramente binárias (eixos não rotacionados) - o ângulo é a causa da continuidade1

    (0,0)2

Algumas perguntas relacionadas a FA ou PCA de dados binários: 1 , 2 , 3 , 4 , 5 , 6 . As respostas lá potencialmente podem expressar opiniões diferentes das minhas.


1entidades de nível - para variáveis ​​como pontos ou categorias como pontos - suas coordenadas no espaço dos eixos principais são, de fato, valores de escala legitimamente. Mas não para pontos de dados (casos de dados) de dados binários, - suas "pontuações" são valores pseudo- contínuos: não medida intrínseca, apenas algumas coordenadas de sobreposição.


21

Exemplo de dados binários (apenas um caso simples de duas variáveis):

insira a descrição da imagem aqui

Os gráficos de dispersão abaixo exibem os pontos de dados um pouco mais agitados (para renderizar frequência) e mostram os eixos dos componentes principais como linhas diagonais contendo pontuações de componentes [essas pontuações, de acordo com minha afirmação, são valores pseudo- contínuos]. O gráfico da esquerda em todas as imagens demonstra o PCA com base em desvios "brutos" da origem, enquanto o gráfico da direita demonstra o PCA com base em desvios em escala (diagonal = unidade) dele.

1) O PCA tradicional coloca a (0,0)origem na média dos dados (centróide). Para dados binários, a média não é um valor de dados possível. É, no entanto, centro de gravidade físico. O PCA maximiza a variabilidade sobre isso.

(Não se esqueça, também, de que, em uma variável binária, a média e a variância estão estritamente ligadas, elas são, por assim dizer, "uma coisa". Padronizar / escalar variáveis ​​binárias, ou seja, executar PCA com base em correlações e não covariâncias, em a instância atual, significa que você impede que variáveis ​​mais equilibradas - com maior variação - influenciem o PCA maior do que as variáveis ​​assimétricas.)

insira a descrição da imagem aqui

2) Você pode executar o PCA em dados não centrados, ou seja, deixar a origem (0,0)ir para o local (0,0). É PCA na X'X/nmatriz MSCP ( ) ou na matriz de similaridade de cosseno. O PCA maximiza a protuberabilidade a partir do estado sem atributo.

insira a descrição da imagem aqui

3) Você pode deixar a origem (0,0)no ponto de dados da menor soma das distâncias de Manhattan e em todos os outros pontos de dados - L1 medóide. Medóide, geralmente, é entendido como o ponto de dados mais "representativo" ou "típico". Portanto, o PCA maximizará a atipicidade (além da frequência). Em nossos dados, o medóide L1 caiu nas (1,0)coordenadas originais.

insira a descrição da imagem aqui

4) Ou coloque a origem (0,0)nas coordenadas de dados onde a frequência é a mais alta - modo multivariado. É a (1,1)célula de dados em nosso exemplo. O PCA maximizará (será guiado por) modos juniores.

insira a descrição da imagem aqui

5) No corpo da resposta, foi mencionado que as correlações tetracóricas são uma boa questão para a análise fatorial, para variáveis ​​binárias. O mesmo poderia ser dito sobre o PCA: você pode fazer o PCA com base em correlações tetracóricas . No entanto, isso significa que você está supondo uma variável contínua subjacente dentro de uma variável binária.

ttnphns
fonte
2
Sobre a conexão entre FA em itens binários e modelos de TRI (1- e 2-PL), aqui estão dois artigos que podem ser interessantes: Takane & de Leeuw, Sobre a relação entre a teoria da resposta ao item e a análise fatorial de variáveis ​​discretizadas , Psychometrika ( 1987) 52 (3): 393; e uma mais recente, Kamata & Bauer, Uma nota sobre a relação entre os modelos de teoria analítica de fator e resposta ao item , SEM (2008) 15: 136.
chl