Ao trabalhar com muitas variáveis de entrada, geralmente nos preocupamos com a multicolinearidade . Existem várias medidas de multicolinearidade que são usadas para detectar, pensar e / ou comunicar a multicolinearidade. Algumas recomendações comuns são:
- O múltiplo para uma variável específica
- A tolerância, , para uma variável específica
- O fator de inflação da variação, , para uma variável específica
O número da condição da matriz de design como um todo:
(Existem outras opções discutidas no artigo da Wikipedia e aqui no SO no contexto de R.)
O fato de os três primeiros serem uma função perfeita um do outro sugere que a única vantagem líquida possível entre eles seria psicológica. Por outro lado, os três primeiros permitem examinar variáveis individualmente, o que pode ser uma vantagem, mas ouvi dizer que o método do número da condição é considerado melhor.
- Isso é verdade? Melhor para quê?
- O número da condição é uma função perfeita dos 's? (Eu acho que seria.)
- As pessoas acham que um deles é mais fácil de explicar? (Nunca tentei explicar esses números fora da sala de aula, apenas descrevo qualitativamente a multicolinearidade.)
multicollinearity
- Reinstate Monica
fonte
fonte
Respostas:
No final dos anos 90, fiz minha dissertação sobre colinearidade.
Minha conclusão foi que os índices de condição eram melhores.
O principal motivo foi que, em vez de examinar variáveis individuais , ele permite analisar conjuntos de variáveis. Como a colinearidade é uma função de conjuntos de variáveis, isso é uma coisa boa.
Além disso, os resultados do meu estudo de Monte Carlo mostraram melhor sensibilidade à colinearidade problemática, mas há muito tempo esqueci os detalhes.
Para muito mais sobre isso, confira os livros de David Belsley. Ou, se você realmente quiser, pode obter minha dissertação sobre diagnóstico de multicolinearidade para regressão múltipla: um estudo de Monte Carlo
fonte