Quais são os perigos do cálculo das correlações de Pearson (em vez das tetracóricas) para variáveis ​​binárias na análise fatorial?

10

Eu pesquiso sobre jogos educacionais, e alguns dos meus projetos atuais envolvem o uso de dados do BoardGameGeek (BGG) e VideoGameGeek (VGG) para examinar as relações entre os elementos de design dos jogos (por exemplo, "ambientados na Segunda Guerra Mundial", "envolvem dados" ) e classificações de jogadores desses jogos (ou seja, pontuações em 10). Cada um desses elementos de design corresponde a uma etiqueta no sistema BGG ou VGG; portanto, cada elemento é essencialmente uma variável dicotômica. Um jogo tem um 1 para cada tag presente no banco de dados e um 0 para cada tag que não está presente.

Existem dezenas dessas tags, então eu quero usar a análise fatorial exploratória (EFA) para criar um número gerenciável de "gêneros" que capturam padrões no design de jogos. Consultando diversas fontes, eu entendo que desde que eu estou trabalhando com dicotômicas variáveis, eu deveria usar policóricas correlações ( tetracóricas , particularmente aqui) em vez de Pearson queridos quando esbarra com meus fatores (há também outras opções de como latente traço Analysis são por aí, mas esse é o que eu estou explorando por enquanto).

Por curiosidade, criei dois conjuntos de fatores, um usando correlações de Pearson e outro usando correlações policóricas (o mesmo número de fatores de cada vez). Meu problema é que os fatores calculados usando correlações de Pearson fazem muito mais sentido e são mais fáceis de interpretar do que os fatores calculados usando correlações policóricas. Em outras palavras, os "gêneros" do primeiro conjunto de fatores fazem sentido intuitivamente e correspondem à minha compreensão de como os jogos são tipicamente projetados; esse não é o caso do segundo conjunto de fatores.

Por um lado, quero garantir que eu atenda às suposições dos testes que estou usando, mesmo que isso torne meus resultados menos bonitos. Por outro lado, acho que parte do objetivo da análise fatorial e da construção de modelos (mais amplamente) é apresentar algo útil, e as informações mais úteis surgem quando estou "violando as regras". A necessidade de um modelo útil é suficiente para compensar a violação das premissas deste teste? Quais são exatamente as conseqüências do uso das correlações de Pearson em vez das correlações policóricas?

Spencer Greenhalgh
fonte
11
As suposições da normalidade multivariada subjacente são tão fortes com os dados de mais de três ou mais dimensões que as correlações policóricas param de fazer tanto sentido. O grau de especificação incorreta do modelo com correlações policóricas provavelmente torna sua análise bastante inútil. Porém, não sei por que você precisa dessas correlações: se você possui uma variável de resultado clara (classificação) e um monte de variáveis ​​explicativas (recursos de design), precisa de uma análise de regressão, não da análise fatorial.
StasK
A análise de regressão @StasK é o meu objetivo final, mas tenho mais de 100 variáveis ​​explicativas e gostaria de reduzi-lo a um número mais gerenciável.
Spencer Greenhalgh
Além disso, para esses problemas, a classificação é um objetivo em si.
Pere

Respostas:

7

A análise de fator linear é teoricamente , logicamente, apenas para variáveis ​​contínuas . Se as variáveis ​​não são contínuas, mas são, por exemplo, dicotômicas, uma maneira de você deve admitir as variáveis ​​contínuas subjacentes e declarar que as variáveis ​​observadas são as subjacentes ou verdadeiras binadas. Você não pode quantificar uma variável dicotômica em uma escala sem um "tutor" estranho, mas ainda é possível inferir as correlações que seriam se suas variáveis ​​ainda não tivessem sido armazenadas em bin e fossem contínuas "originais" normalmente distribuídas. E este é o tetracóricocorrelações (ou policóricas, se no lugar de binário você tiver variáveis ​​ordinais). Portanto, o uso de correlações tetracóricas (correlações inferidas de Pearson) no lugar das correlações Phi (correlações observadas de Pearson com dados dicotômicos) é um ato lógico.

r=1 1rr, mas em variáveis ​​dicotômicas esse efeito é mais acentuado porque são poucos os valores a serem assumidos.) Portanto, as correlações phi em sua matriz podem ser vistas como desinflacionadas desigualmente devido ao contraste das distribuições marginais nas variáveis ​​dicotômicas; você não sabe se uma correlação é maior que outra "verdadeiramente" ou devido aos diferentes pontos de corte nesses dois pares de variáveis. O número de fatores a serem extraídos (critérios como o "autovalor> 1" de Kaiser) será inflado: alguns "fatores" extraídos são o resultado da irregularidade, diversidade dos pontos de corte, - fatores latentes não substanciais. Esta é a razão prática pela qual não usar correlações phi (pelo menos em sua forma bruta - sem escala).

Houve evidência em estudos de simulação / binning que a análise fatorial baseada em correlações tetracóricas piora se houver muitas correlações fortes (> 0,7) na matriz. A correlação tetracórica não é ideal: se os pontos de corte das variáveis ​​subjacentes correlacionadas estão nos opostos (e, portanto, as distribuições marginais no dicotômico são opostas), enquanto a associação subjacente é forte, o coeficiente tetracórico a superestima ainda mais. Observe também que a matriz de correlação tetracórica não é necessariamente semidefinida positiva em amostras não grandes e, portanto, pode precisar de correção ("suavização"). Ainda assim, é considerado de uma maneira muito melhor do que a análise fatorial com coeficientes simples de Pearson (phi).

Mas por que a análise fatorial dos dados binários? Existem outras opções, incluindo característica latente / TRI (uma forma de análise fatorial "logística") e análise de correspondência múltipla (se você vir suas variáveis ​​binárias como categorias nominais).

Veja também:

ttnphns
fonte
Verifique também stats.stackexchange.com/a/219814/3277
ttnphns