Há muito sobre colinearidade em relação a preditores contínuos, mas não tanto que eu possa encontrar em preditores categóricos. Eu tenho dados deste tipo ilustrados abaixo.
O primeiro fator é uma variável genética (contagem de alelos), o segundo fator é uma categoria de doença. Claramente, os genes precedem a doença e são um fator para mostrar sintomas que levam ao diagnóstico. No entanto, uma análise regular usando somas de quadrados tipo II ou III, como seria comumente feito em psicologia com o SPSS, perde o efeito. Uma análise de somas de quadrados do tipo I é selecionada quando a ordem apropriada é inserida porque depende da ordem. Além disso, é provável que haja componentes extras no processo da doença que não estejam relacionados ao gene que não estão bem identificados com os tipos II ou III, veja anova (lm1) abaixo vs lm2 ou Anova.
Dados de exemplo:
set.seed(69)
iv1 <- sample(c(0,1,2), 150, replace=T)
iv2 <- round(iv1 + rnorm(150, 0, 1), 0)
iv2 <- ifelse(iv2<0, 0, iv2)
iv2 <- ifelse(iv2>2, 2, iv2)
dv <- iv2 + rnorm(150, 0, 2)
iv2 <- factor(iv2, labels=c("a", "b", "c"))
df1 <- data.frame(dv, iv1, iv2)
library(car)
chisq.test(table(iv1, iv2)) # quick gene & disease relations
lm1 <- lm(dv~iv1*iv2, df1); lm2 <- lm(dv~iv2*iv1, df1)
anova(lm1); anova(lm2)
Anova(lm1, type="II"); Anova(lm2, type="II")
- lm1 com SS tipo I para mim parece a maneira apropriada de analisar os dados, dada a teoria dos antecedentes. Minha suposição está correta?
- Estou acostumado a desenhos ortogonais explicitamente manipulados, onde esses problemas geralmente não surgem. É difícil convencer os revisores de que este é o melhor processo (assumindo que o ponto 1 esteja correto) no contexto de um campo centralizado no SPSS?
- E o que relatar na seção de estatísticas? Alguma análise extra, ou comentários que devem entrar?
fonte
Respostas:
A colinearidade entre fatores é bastante complicada. O exemplo clássico é aquele que você obtém ao agrupar e codificar dummy as três variáveis contínuas 'idade', 'período' e 'ano'. É analisado em:
Os coeficientes obtidos após a remoção de quatro (não três) referências são identificados apenas até uma tendência linear desconhecida. Isso pode ser analisado porque a colinearidade surge de uma colinearidade conhecida nas variáveis de origem (idade + ano = período).
Também foi realizado algum trabalho sobre colinearidade espúria entre dois fatores. Foi analisado em:
O resultado é que a colinearidade entre variáveis categóricas significa que o conjunto de dados deve ser dividido em partes desconectadas, com um nível de referência em cada componente. Os coeficientes estimados de diferentes componentes não podem ser comparados diretamente.
Para colinearidades mais complicadas entre três ou mais fatores, a situação é complicada. Existem procedimentos para encontrar funções estimadas, ou seja, combinações lineares dos coeficientes que são interpretáveis, por exemplo:
Mas, a meu conhecimento, não existe uma bala de prata geral para lidar com essas colinearidades de maneira intuitiva.
fonte
Depois de conversar com algumas das estatísticas de pessoas em todo o lugar. Parece que esse tipo de pergunta pode não ser a pergunta mais correta a ser respondida. Usar ANOVA (ou métodos semelhantes) para investigar interações genéticas e de diagnóstico em medidas neuropsicológicas quando elas estão altamente correlacionadas é uma questão difícil. Fui apontado para examinar a estrutura dos dados com modelagem de equações estruturais.
Esta resposta será atualizada à medida que eu aprender mais sobre o SEM.
fonte