Como evitar a colinearidade de variáveis ​​categóricas na regressão logística?

9

Estou com o seguinte problema: Estou executando uma regressão logística múltipla em várias variáveis, cada uma das quais com uma escala nominal. Eu quero evitar a multicolinearidade em minha regressão. Se as variáveis ​​fossem contínuas, eu poderia calcular o fator de inflação de variação (VIF) e procurar variáveis ​​com um VIF alto. Se as variáveis ​​fossem escaladas normalmente, eu poderia calcular os coeficientes de correlação de classificação de Spearman para vários pares de variáveis ​​e comparar o valor calculado com um determinado limite. Mas o que faço se as variáveis ​​são apenas escalonadas nominalmente? Uma idéia seria realizar um teste qui-quadrado de independência para pares, mas as diferentes variáveis ​​nem todas têm os mesmos co-domínios. Então isso seria outro problema. Existe a possibilidade de resolver esse problema?

lbf_1994
fonte
11
Não é uma duplicata, mas é semelhante: stats.stackexchange.com/questions/200720/… . Não se deixe enganar pelo título, o OP dessa pergunta significava variáveis ​​independentes. Além disso, consulte a resposta de Peter Flom para esta pergunta: stats.stackexchange.com/questions/72992/…
TEG
4
Por que você "deseja evitar a multicolinearidade"? Às vezes, é inevitável, até útil, e pode ser tratada com abordagens como a regressão de crista. Se suas variáveis ​​nominais fossem itens individuais que juntos compunham uma escala Likert, você realmente dependeria da multicolinearidade deles e poderia usar a soma desses itens como um preditor. Então, o que, em particular, no seu estudo torna tão necessário evitar a multicolinearidade?
EdM

Respostas:

6

Gostaria de comentar o segundo comentário de EdM (+1) e sugerir o uso de uma abordagem de regressão regularizada.

Penso que uma abordagem de regressão elástico-rede / cume deve permitir que você lide com preditores colineares. Apenas tome cuidado para normalizar sua matriz de recursosX apropriadamente antes de usá-lo, caso contrário, você corre o risco de regularizar cada recurso de maneira desproporcional (sim, quero dizer o 0 0/1 1 colunas, você deve dimensioná-las para que cada coluna tenha variação de unidade e média 0 0)

Claramente, você teria que validar cruzadamente seus resultados para garantir alguma noção de estabilidade. Permitam-me observar também que a instabilidade não é um problema enorme, porque na verdade sugere que não há solução óbvia / resultado inferencial e a simples interpretação do procedimento GLM como "verdade fundamental" é incoerente.

usεr11852
fonte
3

O ViF ainda é uma medida útil no seu caso, mas o número da condição da da sua matriz de design é uma abordagem mais comum para dados categóricos.

A referência original está aqui:

Belsley, David A .; Kuh, Edwin; Welsch, Roy E. (1980). "O número da condição". Diagnóstico de regressão: identificando dados influentes e fontes de colinearidade. Nova York: John Wiley & Sons. pp. 100-104.

E aqui estão mais links úteis:
https://en.wikipedia.org/wiki/Condition_number

https://epub.ub.uni-muenchen.de/2081/1/report008_statistics.pdf

Nicolas Schuck
fonte
11
+1. Hum ... Um pouco "explosivo do passado" que relata, mas interessante. Suspeito que essa abordagem será dolorosa ao lidar com várias variáveis ​​que têm vários níveis (seus aplicativos são variáveis ​​categóricas binárias ou trárias), mas sim, leitura interessante!
usεr11852
1

Outra abordagem seria realizar a Análise de Correspondência Múltipla (MCA) em suas variáveis ​​independentes multicolineares. Depois disso, você terminará com componentes ortogonais (perfeitamente independentes) que podem ser usados ​​como IV no seu modelo. Não haverá colinearidade presente, mas será difícil interpretar os efeitos de suas variáveis ​​originais. Por outro lado, se houver multicolinearidade, o MCA unirá seus efeitos de variáveis ​​IV correlacionadas em efeitos mais gerais, que você pode achar ainda mais interpretável e plausível.

Paweł Kozielski-Romaneczko
fonte
0

Você pode verificar a correlação bi-variável usando ordem de classificação ou outro teste não paramétrico para variáveis ​​categóricas. É o mesmo que você verifica a matriz de correlação para um grupo de variáveis ​​contínuas, apenas use testes diferentes.

Evelin Ericksson
fonte
O OP já disse que rejeitou isso porque suas variáveis ​​não são ordenadas categóricas.
mdewey