Quais são os méritos das diferentes abordagens para detectar colinearidade?

11

Quero detectar se a colinearidade é um problema na minha regressão OLS. Entendo que os fatores de inflação de variação e o índice de condição são duas medidas comumente usadas, mas estou tendo dificuldade em encontrar algo definitivo sobre os méritos de cada abordagem ou quais devem ser as pontuações.

Uma fonte importante que indica qual abordagem fazer e / ou quais pontuações são apropriadas seriam muito úteis.

Uma pergunta semelhante foi feita em "Existe uma razão para preferir uma medida específica de multicolinearidade?" mas estou idealmente atrás de uma referência que posso citar.

multiple-regression references least-squares multicollinearity vif Kyrenia
fonte

4

Lembre-se de que a colinearidade é uma questão de grau ; portanto, mesmo que você encontre um texto que ofereça um número agradável e citável, não é algo que deve ser tratado como um valor de corte definitivo para "sem problemas" vs ", temos um problema "

Silverfish

4

@Silverfish dá bons conselhos. Belsley, Kuh e Welsch também enfatizam que a colinearidade, mesmo quando presente, não é necessariamente prejudicial: você precisa determinar se realmente está causando um problema para sua análise.

whuber

11

Belsley, Kuh e Welsch é o texto a seguir para esse tipo de pergunta. Eles incluem uma extensa discussão sobre diagnósticos mais antigos em uma seção intitulada "Perspectiva histórica". Sobre VIF eles escrevem

... Se assumirmos o dados foram centrados e dimensionada para ter unidade de comprimento, a correlação matriz é simplesmente . ... $X$ $R$ $X^\prime X$

Estamos considerando . Os elementos diagonais de , , são freqüentemente chamados de fatores de inflação de variação, , e seu valor diagnóstico segue a relação onde é o coeficiente de correlação múltipla de regredido nas demais variáveis explicativas. Claramente, um VIF alto indica um próximo da unidade e, portanto, aponta para colinearidade. Esta medida é, portanto, de alguma utilidade como uma indicação geral de colinearidade. Suas fraquezas, como as de $R^{-1} = (X^\prime X)^{-1}$ $R^{-1}$ $r^{ii}$ $\text{VIF}_i$
${VIF}_{i} = \frac{1}{1 - R_{i}^{2}}$ $\text{VIF}_i = \frac{1}{1 - R_i^2}$ $R_i^2$ $X_i$ $R_i^2$ $R$ , reside em sua incapacidade de distinguir entre várias dependências próximas coexistentes e na falta de um limite significativo para distinguir entre valores de VIF que podem ser considerados altos e aqueles que podem ser considerados baixos.

Em lugar de analisar (ou ), BKW propor cuidadoso exame, controlada da decomposição singular do valor de . Eles o motivam, demonstrando que a razão entre o maior e o menor valor singular é o número da condição de e mostram como o número da condição fornece (às vezes apertado) limites na propagação de erros de computação no cálculo das estimativas de regressão. Eles tentam uma decomposição aproximada das variações dos parâmetros estimados em componentes associados aos valores singulares. O poder dessa decomposição reside em sua capacidade (em muitos casos) de revelar a natureza $R$ $R^{-1}$ $X$ $X$ $\hat\beta_i$ da colinearidade, em vez de apenas indicar sua presença.

Qualquer um que tenha construído modelos de regressão com centenas de variáveis apreciará esse recurso! Uma coisa é o software dizer "seus dados são colineares, não posso prosseguir" ou até mesmo dizer "seus dados são colineares, estou jogando fora as seguintes variáveis". É algo muito mais útil poder dizer "o grupo de variáveis está causando instabilidades nos cálculos: veja quais dessas variáveis você pode ou considerar executando uma análise de componentes principais para reduzir seu número ". $X_{i_1}, \ldots, X_{i_k}$

Por fim, a BKW recomenda o diagnóstico de colinearidade por meio de

... a seguinte condição dupla:

Um valor singular considerado com um alto índice de condição e associado a

Proporções de variância-decomposição altas para duas ou mais variações estimadas do coeficiente de regressão.

O número de índices de condição considerados grandes (por exemplo, maiores que ) em (1) identifica o número de dependências próximas entre as colunas da matriz de dados , e as magnitudes desses altos índices de condição fornecem uma medida de sua "tensão" relativa. " Além disso, a determinação em (2) de grandes proporções de variância-decomposição (por exemplo, maiores que ) associadas a cada alto índice de condição identifica as variáveis envolvidas na dependência quase correspondente e a magnitude dessas proporções em conjunto com a alta O índice de condição fornece uma medida do grau em que a estimativa de regressão correspondente foi degradada pela presença de colinearidade. $30$ $X$ $0.5$

whuber
fonte

10

Os fatores de inflação de variação (VIFs) são fáceis de entender. Regresse cada uma das colunas da matriz de design em todas as outras, observe o deste modelo, calcule e pronto. Um VIF de 10 significa que você pode explicar 90% da variação de um preditor usando todos os outros regressores. Normalmente, isso é usado como limite de regra geral para colinearidade. $R^2$ $1/(1-R^2)$

No entanto, os VIFs normalmente implementados não podem falar sobre colinearidade com a interceptação, pois a interceptação geralmente é silenciosamente incluída nessas regressões "auxiliares". Além disso, se um regressor tiver um VIF alto, você não saberá imediatamente quais outros regressores são responsáveis pela colinearidade. Você precisaria examinar os coeficientes padronizados nas regressões auxiliares.
Os índices de condição e as proporções de decomposição da colinearidade de Belsley, Kuh & Welsch (Belsley, DA; Kuh, E. & Welsch, RE Regression Diagnostics: Identifying Influential Data and Sources of Collinearity. John Wiley & Sons, 1980) são muito mais difíceis de entender. Eu trabalhava com isso há alguns anos, mas não tentarei explicá-los aqui sem fazer uma atualização ;-)

Estes diagnósticos que permitem a detecção de colinearidade com a interceptação. E você pode investigar as proporções de decomposição da colinearidade para deduzir quais outros regressores são responsáveis por uma dada colinearidade do regressor.

Stephan Kolassa
fonte

Obrigado - muito útil - você, por acaso, está ciente de uma citação para o VIF maior que 10 regras práticas ... Eu posso encontrar em muitas anotações de aula econômica, mas não consigo encontrar nada publicado que diga isso .. .

kyrenia

@kyrenia "maior que 10" está longe do único limite que vi sugerido! Gostaria de saber se há variação entre os campos, ou simplesmente entre autores.

Silverfish

3

@ Silverfish Definitivamente, há variação entre os campos. Fui informado de pessoas de design experimental que ensinam que um VIF acima de precisa ser corrigido! Para estudos observacionais, também deve haver variação, dependendo do número de regressores: quanto mais houver, maiores serão os VIFs apenas devido à flutuação do acaso. Com centenas de variáveis, em muitos casos, você apenas precisará suportar VIFs de ou maiores. Presumivelmente, também existem dados suficientes nesses casos para compensar essa inflação de variação.

2

$2$

100

$100$

whuber

@whuber Obrigado por isso. Essa é uma observação muito interessante e altamente relevante para a pergunta feita pelo OP: dada a importância de "segundo escalão" dos comentários no sistema StackExchange, acho que você deve incorporar isso à sua excelente resposta.

Silverfish

6

Para referências amplamente disponíveis para citar, o livro Faraway na página 117 fornece uma regra geral acima de 30 para detectar problemas com base nos números de condição, e Uma introdução ao aprendizado estatístico , página 101, diz que valores de VIF acima de 5 ou 10 indicam um problema .

Provavelmente mais importante do que qual método você usa para identificar a multicolinearidade será a maneira como você lida com isso.

EdM
fonte

Quais são os méritos das diferentes abordagens para detectar colinearidade?

Respostas: