Atualmente, estou avaliando a multicolinearidade em meus conjuntos de dados.
Quais valores limite de VIF e índice de condição abaixo / acima sugerem um problema?
VIF: Ouvi dizer que VIF é um problema.
Após remover duas variáveis problemáticas, o VIF é para cada variável. As variáveis precisam de mais tratamento ou esse VIF parece bom?
Índice de Condição: Ouvi dizer que um Índice de Condição (CI) de 30 ou mais é um problema. Meu IC mais alto é 16,66. Isso é um problema?
Outros problemas:
- Existem outros prós / contras que precisam ser considerados?
- Há outras coisas que eu preciso ter em mente?
multiple-regression
linear-model
multicollinearity
vif
ayush biyani
fonte
fonte
Respostas:
O problema da multicolinearidade é bem estudado na maioria dos livros econométricos. Além disso, há um bom artigo na wikipedia que realmente resume a maioria das questões-chave.
Na prática, começa-se a ter em mente o problema da multicolinearidade, se causar alguns sinais visuais de instabilidade de parâmetros (a maioria deles está implícita na invertibilidade não (fraca) da matriz ):XTX
provavelmente não teoricamente, uma vez que pode acontecer (e geralmente é o caso) que você precisa de todas as variáveis presentes no modelo. A exclusão de variáveis relevantes (problema de variável omitida) fará estimativas de parâmetros tendenciosas e inconsistentes de qualquer maneira. Por outro lado, você pode ser forçado a incluir todas as variáveis de foco simplesmente porque sua análise é baseada nela. Na abordagem de mineração de dados, você é mais técnico na busca do melhor ajuste.
Portanto, lembre-se das alternativas (que eu mesmo usaria):
Alguns outros truques estão no artigo wiki mencionado acima.
fonte
Acredito que Belsely disse que IC acima de 10 é indicativo de um possível problema moderado, enquanto mais de 30 é mais grave.
Além disso, você deve observar a variação compartilhada por conjuntos de variáveis nos altos índices de condição. Há um debate (ou foi, da última vez que li esta literatura) sobre se a colinearidade que envolvia uma variável e a interceptação era problemática ou não, e se a centralização da variável ofensiva se livrou do problema ou simplesmente a mudou para outro lugar.
fonte