Estou com o seguinte problema: Estou executando uma regressão logística múltipla em várias variáveis, cada uma das quais com uma escala nominal. Eu quero evitar a multicolinearidade em minha regressão. Se as variáveis fossem contínuas, eu poderia calcular o fator de inflação de variação (VIF) e procurar variáveis com um VIF alto. Se as variáveis fossem escaladas normalmente, eu poderia calcular os coeficientes de correlação de classificação de Spearman para vários pares de variáveis e comparar o valor calculado com um determinado limite. Mas o que faço se as variáveis são apenas escalonadas nominalmente? Uma idéia seria realizar um teste qui-quadrado de independência para pares, mas as diferentes variáveis nem todas têm os mesmos co-domínios. Então isso seria outro problema. Existe a possibilidade de resolver esse problema?
9
Respostas:
Gostaria de comentar o segundo comentário de EdM (+1) e sugerir o uso de uma abordagem de regressão regularizada.
Penso que uma abordagem de regressão elástico-rede / cume deve permitir que você lide com preditores colineares. Apenas tome cuidado para normalizar sua matriz de recursosX apropriadamente antes de usá-lo, caso contrário, você corre o risco de regularizar cada recurso de maneira desproporcional (sim, quero dizer o 0 / 1 colunas, você deve dimensioná-las para que cada coluna tenha variação de unidade e média 0 0 )
Claramente, você teria que validar cruzadamente seus resultados para garantir alguma noção de estabilidade. Permitam-me observar também que a instabilidade não é um problema enorme, porque na verdade sugere que não há solução óbvia / resultado inferencial e a simples interpretação do procedimento GLM como "verdade fundamental" é incoerente.
fonte
O ViF ainda é uma medida útil no seu caso, mas o número da condição da da sua matriz de design é uma abordagem mais comum para dados categóricos.
A referência original está aqui:
Belsley, David A .; Kuh, Edwin; Welsch, Roy E. (1980). "O número da condição". Diagnóstico de regressão: identificando dados influentes e fontes de colinearidade. Nova York: John Wiley & Sons. pp. 100-104.
E aqui estão mais links úteis:
https://en.wikipedia.org/wiki/Condition_number
https://epub.ub.uni-muenchen.de/2081/1/report008_statistics.pdf
fonte
Outra abordagem seria realizar a Análise de Correspondência Múltipla (MCA) em suas variáveis independentes multicolineares. Depois disso, você terminará com componentes ortogonais (perfeitamente independentes) que podem ser usados como IV no seu modelo. Não haverá colinearidade presente, mas será difícil interpretar os efeitos de suas variáveis originais. Por outro lado, se houver multicolinearidade, o MCA unirá seus efeitos de variáveis IV correlacionadas em efeitos mais gerais, que você pode achar ainda mais interpretável e plausível.
fonte
Você pode verificar a correlação bi-variável usando ordem de classificação ou outro teste não paramétrico para variáveis categóricas. É o mesmo que você verifica a matriz de correlação para um grupo de variáveis contínuas, apenas use testes diferentes.
fonte