Colinearidade entre variáveis ​​categóricas

11

Há muito sobre colinearidade em relação a preditores contínuos, mas não tanto que eu possa encontrar em preditores categóricos. Eu tenho dados deste tipo ilustrados abaixo.

O primeiro fator é uma variável genética (contagem de alelos), o segundo fator é uma categoria de doença. Claramente, os genes precedem a doença e são um fator para mostrar sintomas que levam ao diagnóstico. No entanto, uma análise regular usando somas de quadrados tipo II ou III, como seria comumente feito em psicologia com o SPSS, perde o efeito. Uma análise de somas de quadrados do tipo I é selecionada quando a ordem apropriada é inserida porque depende da ordem. Além disso, é provável que haja componentes extras no processo da doença que não estejam relacionados ao gene que não estão bem identificados com os tipos II ou III, veja anova (lm1) abaixo vs lm2 ou Anova.

Dados de exemplo:

set.seed(69)
iv1 <- sample(c(0,1,2), 150, replace=T)
iv2 <- round(iv1 + rnorm(150, 0, 1), 0)
iv2 <- ifelse(iv2<0, 0, iv2)
iv2 <- ifelse(iv2>2, 2, iv2)
dv  <- iv2 + rnorm(150, 0, 2)
iv2 <- factor(iv2, labels=c("a", "b", "c"))
df1 <- data.frame(dv, iv1, iv2)

library(car)
chisq.test(table(iv1, iv2))          # quick gene & disease relations
lm1 <- lm(dv~iv1*iv2, df1);    lm2 <- lm(dv~iv2*iv1, df1)
anova(lm1);                    anova(lm2)
Anova(lm1, type="II");         Anova(lm2, type="II")
  1. lm1 com SS tipo I para mim parece a maneira apropriada de analisar os dados, dada a teoria dos antecedentes. Minha suposição está correta?
  2. Estou acostumado a desenhos ortogonais explicitamente manipulados, onde esses problemas geralmente não surgem. É difícil convencer os revisores de que este é o melhor processo (assumindo que o ponto 1 esteja correto) no contexto de um campo centralizado no SPSS?
  3. E o que relatar na seção de estatísticas? Alguma análise extra, ou comentários que devem entrar?
Matt Albrecht
fonte
É surpreendente ouvir que alguém que usa o SPSS conhece apenas SS tipo III ou II. E você soa assim.
precisa saber é o seguinte
2
Bem, eu costumava ter a mesma lacuna de conhecimento a que me refiro na minha pergunta. Parece ser mais um reflexo dos interesses, conhecimento e como eles são introduzidos no software, e não no próprio software. Mas as opções padrão também desempenham um papel importante, com a opção padrão do tipo III sendo usada no SPSS.
Matt Albrecht
Você parece estar dizendo que é possível inserir 2 preditores em uma ordem específica usando o procedimento anova do SPSS (unianova?). Eu só sei como especificar ordem, mudando para o procedimento de regressão. Como você consegue isso?
Rolando2

Respostas:

8

A colinearidade entre fatores é bastante complicada. O exemplo clássico é aquele que você obtém ao agrupar e codificar dummy as três variáveis ​​contínuas 'idade', 'período' e 'ano'. É analisado em:

Os coeficientes obtidos após a remoção de quatro (não três) referências são identificados apenas até uma tendência linear desconhecida. Isso pode ser analisado porque a colinearidade surge de uma colinearidade conhecida nas variáveis ​​de origem (idade + ano = período).

Também foi realizado algum trabalho sobre colinearidade espúria entre dois fatores. Foi analisado em:

O resultado é que a colinearidade entre variáveis ​​categóricas significa que o conjunto de dados deve ser dividido em partes desconectadas, com um nível de referência em cada componente. Os coeficientes estimados de diferentes componentes não podem ser comparados diretamente.

Para colinearidades mais complicadas entre três ou mais fatores, a situação é complicada. Existem procedimentos para encontrar funções estimadas, ou seja, combinações lineares dos coeficientes que são interpretáveis, por exemplo:

  • "Sobre a conectividade de projetos de colunas de linha" de Godolphin e Godolphin em Utilitas Mathematica (60) pp 51-65

Mas, a meu conhecimento, não existe uma bala de prata geral para lidar com essas colinearidades de maneira intuitiva.

Simen Gaure
fonte
1

Depois de conversar com algumas das estatísticas de pessoas em todo o lugar. Parece que esse tipo de pergunta pode não ser a pergunta mais correta a ser respondida. Usar ANOVA (ou métodos semelhantes) para investigar interações genéticas e de diagnóstico em medidas neuropsicológicas quando elas estão altamente correlacionadas é uma questão difícil. Fui apontado para examinar a estrutura dos dados com modelagem de equações estruturais.

Esta resposta será atualizada à medida que eu aprender mais sobre o SEM.

Matt Albrecht
fonte