Eu pesquiso sobre jogos educacionais, e alguns dos meus projetos atuais envolvem o uso de dados do BoardGameGeek (BGG) e VideoGameGeek (VGG) para examinar as relações entre os elementos de design dos jogos (por exemplo, "ambientados na Segunda Guerra Mundial", "envolvem dados" ) e classificações de jogadores desses jogos (ou seja, pontuações em 10). Cada um desses elementos de design corresponde a uma etiqueta no sistema BGG ou VGG; portanto, cada elemento é essencialmente uma variável dicotômica. Um jogo tem um 1 para cada tag presente no banco de dados e um 0 para cada tag que não está presente.
Existem dezenas dessas tags, então eu quero usar a análise fatorial exploratória (EFA) para criar um número gerenciável de "gêneros" que capturam padrões no design de jogos. Consultando diversas fontes, eu entendo que desde que eu estou trabalhando com dicotômicas variáveis, eu deveria usar policóricas correlações ( tetracóricas , particularmente aqui) em vez de Pearson queridos quando esbarra com meus fatores (há também outras opções de como latente traço Analysis são por aí, mas esse é o que eu estou explorando por enquanto).
Por curiosidade, criei dois conjuntos de fatores, um usando correlações de Pearson e outro usando correlações policóricas (o mesmo número de fatores de cada vez). Meu problema é que os fatores calculados usando correlações de Pearson fazem muito mais sentido e são mais fáceis de interpretar do que os fatores calculados usando correlações policóricas. Em outras palavras, os "gêneros" do primeiro conjunto de fatores fazem sentido intuitivamente e correspondem à minha compreensão de como os jogos são tipicamente projetados; esse não é o caso do segundo conjunto de fatores.
Por um lado, quero garantir que eu atenda às suposições dos testes que estou usando, mesmo que isso torne meus resultados menos bonitos. Por outro lado, acho que parte do objetivo da análise fatorial e da construção de modelos (mais amplamente) é apresentar algo útil, e as informações mais úteis surgem quando estou "violando as regras". A necessidade de um modelo útil é suficiente para compensar a violação das premissas deste teste? Quais são exatamente as conseqüências do uso das correlações de Pearson em vez das correlações policóricas?
fonte
Respostas:
A análise de fator linear é teoricamente , logicamente, apenas para variáveis contínuas . Se as variáveis não são contínuas, mas são, por exemplo, dicotômicas, uma maneira de você deve admitir as variáveis contínuas subjacentes e declarar que as variáveis observadas são as subjacentes ou verdadeiras binadas. Você não pode quantificar uma variável dicotômica em uma escala sem um "tutor" estranho, mas ainda é possível inferir as correlações que seriam se suas variáveis ainda não tivessem sido armazenadas em bin e fossem contínuas "originais" normalmente distribuídas. E este é o tetracóricocorrelações (ou policóricas, se no lugar de binário você tiver variáveis ordinais). Portanto, o uso de correlações tetracóricas (correlações inferidas de Pearson) no lugar das correlações Phi (correlações observadas de Pearson com dados dicotômicos) é um ato lógico.
Houve evidência em estudos de simulação / binning que a análise fatorial baseada em correlações tetracóricas piora se houver muitas correlações fortes (> 0,7) na matriz. A correlação tetracórica não é ideal: se os pontos de corte das variáveis subjacentes correlacionadas estão nos opostos (e, portanto, as distribuições marginais no dicotômico são opostas), enquanto a associação subjacente é forte, o coeficiente tetracórico a superestima ainda mais. Observe também que a matriz de correlação tetracórica não é necessariamente semidefinida positiva em amostras não grandes e, portanto, pode precisar de correção ("suavização"). Ainda assim, é considerado de uma maneira muito melhor do que a análise fatorial com coeficientes simples de Pearson (phi).
Mas por que a análise fatorial dos dados binários? Existem outras opções, incluindo característica latente / TRI (uma forma de análise fatorial "logística") e análise de correspondência múltipla (se você vir suas variáveis binárias como categorias nominais).
Veja também:
fonte