Avaliação da multicolinearidade de variáveis ​​preditivas dicotômicas

8

Estou trabalhando em um projeto em que observamos o comportamento de uma tarefa (por exemplo, tempo de resposta) e modelamos esse comportamento em função de várias variáveis ​​manipuladas experimentalmente, bem como de várias variáveis ​​observadas (sexo do participante, QI do participante, respostas a seguir). questionário). Não tenho preocupações com a multicolinearidade entre as variáveis ​​experimentais porque elas foram especificamente manipuladas para serem independentes, mas estou preocupado com as variáveis ​​observadas. No entanto, não tenho certeza de como avaliar a independência entre as variáveis ​​observadas, em parte porque pareço obter resultados um pouco diferentes, dependendo de como montei o avaliador, e também porque não estou familiarizado com a correlação no contexto em que um ou outro ambas as variáveis ​​são dicotômicas.

Por exemplo, aqui estão duas abordagens diferentes para determinar se o sexo é independente do QI. Não sou fã de testes de significância de hipóteses nulas; portanto, em ambas as abordagens, construo dois modelos, um com um relacionamento e outro sem, depois calculo e a razão de verossimilhança de log corrigida pela AIC:

m1 = lm(IQ ~ 1)
m2 = lm(IQ ~ sex)
LLR1 = AIC(m1)-AIC(m2)

m3 = glm(sex~1,family='binomial')
m4 = glm(sex~IQ,family='binomial')
LLR2 = AIC(m3)-AIC(m4)

No entanto, essas abordagens produzem respostas um pouco diferentes; LLR1 é de cerca de 7, sugerindo fortes evidências a favor de um relacionamento, enquanto LLR2 é de cerca de 0,3, sugerindo evidências muito fracas em favor de um relacionamento.

Além disso, se eu tentar avaliar a independência entre sexo e outra variável observada dicotômica, "yn", a LLR resultante dependerá da mesma forma se configurarei os modelos para prever o sexo a partir de yn ou prever o yn a partir do sexo.

Alguma sugestão de por que essas diferenças estão surgindo e como proceder de maneira mais razoável?

Mike Lawrence
fonte
É seqem seu código um erro de digitação para sex? Se você copiar e colar o código de análise, que pode ser parte do problema ..
Onestop
Opa, isso é apenas um erro de digitação no código que incluí acima. No meu código atual, não tive o erro de digitação. Obrigado por capturar isso embora.
Mike Lawrence

Respostas:

3

Eu acho que você está tentando interpretar P (A | B) e P (B | A) como se devessem ser a mesma coisa. Não há razão para serem iguais, devido à regra do produto:

P(AB)=P(A|B)P(B)=P(B|A)P(A)

a menos que então em geral. Isso explica a diferença no caso "yn". A menos que você tenha uma tabela "equilibrada" (totais de linha iguais aos totais da coluna), as probabilidades condicionais (linha e coluna) não serão iguais.P(B)=P(A)P(A|B)P(B|A)

Um teste para "independência lógica / estatística" (mas não independência causal) entre variáveis ​​categóricas pode ser dado como:

T=ijOijlog(OijEij)

Onde indexa as células da tabela (portanto, no seu exemplo, ). é o valor observado na tabela e é o que é "esperado" sob independência, que é simplesmente o produto dos marginais ijij=11,12,21,22OijEij

Eij=OOiOOjO=OiOjO

Onde um " " indica que você soma esse índice. Você pode mostrar que, se você tivesse um valor de probabilidades de log anterior para independência de , as probabilidades de log posteriores são . A hipótese alternativa é (isto é, sem simplificação, sem independência), para a qual . Assim, T diz "quão fortemente" os dados suportam a não independência, dentro da classe de distribuições multinomiais. O bom desse teste é que ele funciona para todos os , para que você não precise se preocupar com uma tabela "esparsa". Este teste ainda dará resultados sensatos.L I L I - T E i j = O i j T = 0 E i j > 0LILITEij=OijT=0Eij>0

Para as regressões, isso indica que o valor médio de QI é diferente entre os dois valores de sexo, embora eu não conheça a escala da diferença da AIC (isso é "grande"?).

Não tenho certeza de quão apropriada é a AIC para um GLM binomial. Pode ser uma idéia melhor examinar as tabelas ANOVA e desvio para o LM e GLM, respectivamente.

Além disso, você plotou os dados? sempre plote os dados !!! isso poderá lhe dizer coisas que o teste não conta. Qual a diferença entre os QIs quando plotados por sexo? quão diferentes os sexos parecem quando plotados pelo QI?

probabilityislogic
fonte
3

Por que você está preocupado com a multicolinearidade? A única razão pela qual precisamos dessa suposição na regressão é garantir que recebamos estimativas únicas. A multicolinearidade só importa para estimativa quando é perfeita - quando uma variável é uma combinação linear exata das outras.

Se suas variáveis ​​manipuladas experimentalmente foram designadas aleatoriamente, suas correlações com os preditores observados e com os fatores não observados devem ser (aproximadamente) 0; é essa suposição que ajuda a obter estimativas imparciais.

Dito isto, a multicolinearidade não perfeita pode aumentar seus erros padrão, mas apenas nas variáveis ​​que enfrentam o problema da multicolinearidade. No seu contexto, os erros padrão dos coeficientes nas suas variáveis ​​experimentais não devem ser afetados.

Charlie
fonte