Quero detectar se a colinearidade é um problema na minha regressão OLS. Entendo que os fatores de inflação de variação e o índice de condição são duas medidas comumente usadas, mas estou tendo dificuldade em encontrar algo definitivo sobre os méritos de cada abordagem ou quais devem ser as pontuações.
Uma fonte importante que indica qual abordagem fazer e / ou quais pontuações são apropriadas seriam muito úteis.
Uma pergunta semelhante foi feita em "Existe uma razão para preferir uma medida específica de multicolinearidade?" mas estou idealmente atrás de uma referência que posso citar.
Respostas:
Belsley, Kuh e Welsch é o texto a seguir para esse tipo de pergunta. Eles incluem uma extensa discussão sobre diagnósticos mais antigos em uma seção intitulada "Perspectiva histórica". Sobre VIF eles escrevem
Em lugar de analisar (ou ), BKW propor cuidadoso exame, controlada da decomposição singular do valor de . Eles o motivam, demonstrando que a razão entre o maior e o menor valor singular é o número da condição de e mostram como o número da condição fornece (às vezes apertado) limites na propagação de erros de computação no cálculo das estimativas de regressão. Eles tentam uma decomposição aproximada das variações dos parâmetros estimados em componentes associados aos valores singulares. O poder dessa decomposição reside em sua capacidade (em muitos casos) de revelar a naturezaR - 1 X X β iR R−1 X X β^i da colinearidade, em vez de apenas indicar sua presença.
Qualquer um que tenha construído modelos de regressão com centenas de variáveis apreciará esse recurso! Uma coisa é o software dizer "seus dados são colineares, não posso prosseguir" ou até mesmo dizer "seus dados são colineares, estou jogando fora as seguintes variáveis". É algo muito mais útil poder dizer "o grupo de variáveis está causando instabilidades nos cálculos: veja quais dessas variáveis você pode ou considerar executando uma análise de componentes principais para reduzir seu número ".Xi1,…,Xik
Por fim, a BKW recomenda o diagnóstico de colinearidade por meio de
fonte
Os fatores de inflação de variação (VIFs) são fáceis de entender. Regresse cada uma das colunas da matriz de design em todas as outras, observe o deste modelo, calcule e pronto. Um VIF de 10 significa que você pode explicar 90% da variação de um preditor usando todos os outros regressores. Normalmente, isso é usado como limite de regra geral para colinearidade.R2 1/(1−R2)
No entanto, os VIFs normalmente implementados não podem falar sobre colinearidade com a interceptação, pois a interceptação geralmente é silenciosamente incluída nessas regressões "auxiliares". Além disso, se um regressor tiver um VIF alto, você não saberá imediatamente quais outros regressores são responsáveis pela colinearidade. Você precisaria examinar os coeficientes padronizados nas regressões auxiliares.
Os índices de condição e as proporções de decomposição da colinearidade de Belsley, Kuh & Welsch (Belsley, DA; Kuh, E. & Welsch, RE Regression Diagnostics: Identifying Influential Data and Sources of Collinearity. John Wiley & Sons, 1980) são muito mais difíceis de entender. Eu trabalhava com isso há alguns anos, mas não tentarei explicá-los aqui sem fazer uma atualização ;-)
Estes diagnósticos que permitem a detecção de colinearidade com a interceptação. E você pode investigar as proporções de decomposição da colinearidade para deduzir quais outros regressores são responsáveis por uma dada colinearidade do regressor.
fonte
Para referências amplamente disponíveis para citar, o livro Faraway na página 117 fornece uma regra geral acima de 30 para detectar problemas com base nos números de condição, e Uma introdução ao aprendizado estatístico , página 101, diz que valores de VIF acima de 5 ou 10 indicam um problema .
Provavelmente mais importante do que qual método você usa para identificar a multicolinearidade será a maneira como você lida com isso.
fonte