Existe uma explicação intuitiva por que a multicolinearidade é um problema na regressão linear?

85

O wiki discute os problemas que surgem quando a multicolinearidade é um problema na regressão linear. O problema básico é que a multicolinearidade resulta em estimativas instáveis ​​de parâmetros, o que dificulta a avaliação do efeito de variáveis ​​independentes sobre variáveis ​​dependentes.

Eu entendo as razões técnicas por trás dos problemas (pode não ser capaz de inverter , mal-condicionado etc), mas estou à procura de uma explicação mais intuitiva (talvez geométrica?) Para este problema.X XXXXX

Existe uma forma geométrica ou talvez alguma outra forma de explicação facilmente compreensível sobre por que a multicolinearidade é problemática no contexto da regressão linear?


fonte
4
Realmente ótima pergunta. A melhor maneira de entender algo é de várias direções de explicação.
Tal Galili
11
Consulte também perguntas relacionadas e explicações visuais stats.stackexchange.com/q/70899/3277
ttnphns

Respostas:

89

Considere o caso mais simples em que é regredido em relação a e e onde e são altamente correlacionados positivamente. Em seguida, o efeito de em é difícil de distinguir do efeito de em , porque qualquer aumento na tende a ser associada com um aumento em .X Z X Z X Y Z Y X ZYXZXZXYZYXZ

Outra maneira de analisar isso é considerar a equação. Se escrevermos , o coeficiente é o aumento de para cada aumento de unidade em enquanto mantém constante. Mas, na prática, muitas vezes é impossível manter constante e a correlação positiva entre e significa que um aumento unitário em é geralmente acompanhado por algum aumento de ao mesmo tempo.b 1 Y X Z Z X Z X ZY=b0+b1X+b2Z+eb1YXZZXZXZ

Uma explicação semelhante, porém mais complicada, vale para outras formas de multicolinearidade.

Rob Hyndman
fonte
20
+1 O caso extremamente patológico em que destaca isso ainda mais. e seriam indistinguíveis. Y = b 0 + b 1 X + b 2 Z + e Y = b 0 + ( b 1 + b 2 ) X + 0 Z + eX=ZY=b0+b1X+b2Z+eY=b0+(b1+b2)X+0Z+e
vqv
11
+1 Gostei desta resposta, porque uma das perguntas de ajuda mais comuns é por que então é e . A inferência deve levar em consideração entradas realistas. b 2 < 0b1>0b2<0
Muratoa 20/08/12
29

Eu estava comendo sushi uma vez e pensei que poderia fazer uma boa demonstração intuitiva de problemas mal condicionados. Suponha que você queira mostrar a alguém um avião usando dois paus tocando suas bases.

Você provavelmente seguraria os pauzinhos ortogonais um ao outro. O efeito de qualquer tipo de tremor de suas mãos no avião faz com que ele balance um pouco em torno do que você esperava mostrar às pessoas, mas depois de observá-lo por um tempo, elas têm uma boa idéia do plano que você pretende demonstrar.

Mas digamos que você aproxime as pontas dos gravetos e observe o efeito de suas mãos tremendo. O avião que ele formar ficará muito mais selvagem. Seu público precisará assistir por mais tempo para ter uma boa idéia do plano que você está tentando demonstrar.

Snackrifice
fonte
+1 Acho que isso responde mais diretamente à pergunta. Porque, embora a multicolinearidade afete a interpretação. Por que é um problema imho é a estabilidade na estimativa.
Muratoa 20/08/12
+1 Para postar esse comentário (e apenas esse comentário na história do Stackoverflow) sob o nome de usuário Snackrifice.
Stackoverflax
19

A abordagem geométrica é a de considerar o mínimos quadrados projecção de sobre o subespaço gerado por .YX

Digamos que você tenha um modelo:

E[Y|X]=β1X1+β2X2

Nosso espaço de estimativa é o plano determinado pelos vetores e e o problema é encontrar coordenadas correspondentes a que descreverão o vetor , uma projeção de quadrados mínimos de nesse plano.X1X2(β1,β2)Y^Y

Agora suponha que , ou seja, eles são colineares. Então, o subespaço determinado por e é apenas uma linha e temos apenas um grau de liberdade. Portanto, não podemos determinar dois valores e conforme solicitado.X1=2X2X1X2β1β2

ars
fonte
2
Eu votei há muito tempo, mas relendo a sua resposta, lembre-me que eu sempre gostei de respostas planas para perguntas complexas de Christensen ( j.mp/atRp9w ).
chl
@ chl: legal, definitivamente vou dar uma olhada então. :)
ars
14

Duas pessoas estão empurrando uma pedra para cima de uma colina. Você quer saber o quanto cada um deles está pressionando. Suponha que você os observe se juntarem por dez minutos e a pedra se move 10 pés. O primeiro cara fez todo o trabalho e o segundo simplesmente fingiu? Ou vice-versa? Ou 50-50? Como as duas forças estão trabalhando exatamente ao mesmo tempo, você não pode separar a força de nenhuma delas separadamente. Tudo o que você pode dizer é que a força combinada deles é de 1 pé por minuto.

Agora imagine que o primeiro cara empurra por um minuto, depois nove minutos com o segundo, e um minuto final é apenas o segundo empurrando. Agora você pode usar estimativas de forças no primeiro e no último minuto para descobrir a força de cada pessoa separadamente. Mesmo que eles ainda estejam trabalhando ao mesmo tempo, o fato de haver um pouco de diferença permite obter estimativas da força de cada um.

Se você visse cada homem pressionando independentemente por dez minutos completos, isso lhe daria estimativas mais precisas das forças do que se houvesse uma grande sobreposição nas forças.

Deixo como exercício para o leitor estender esse caso a um homem que está subindo a colina e outro que está descendo a ladeira (ainda funciona).

A multicolinearidade perfeita impede que você calcule as forças separadamente; quase multicolinearidade gera erros padrão maiores.

Charlie
fonte
6

A maneira como penso sobre isso realmente é em termos de informação. Diga cada um dos e tem alguma informação sobre . Quanto mais correlacionados e estiverem um com o outro, mais o conteúdo de informações sobre de e será semelhante ou sobreposto, a tal ponto que para perfeitamente correlacionado e , é realmente o mesmo conteúdo de informação. Se agora colocarmos e no mesmo modelo (regressão) para explicar , o modelo tentará "distribuir" as informações que (X1X2YX1X2YX1X2X1X2X1X2YX1 , ) contém cerca de para cada um dos e , de uma maneira um tanto arbitrária. Não há realmente uma boa maneira de distribuir isso, pois qualquer divisão das informações ainda leva a manter as informações totais de ( , ) no modelo (para 's perfeitamente correlacionados , esse é realmente um caso de não identificação). Isso leva a estimativas individuais instáveis ​​para os coeficientes individuais de e , embora se você observar os valores previstos em muitas execuções e estimativas de eX2YX1X2X1X2XX1X2b1X1+b2X2b1b2, estes serão bastante estáveis.

Abhijit
fonte
4

Minha intuição (muito) leiga para isso é que o modelo OLS precisa de um certo nível de "sinal" na variável X para detectar que ele fornece uma previsão "boa" para Y. Se o mesmo "sinal" for espalhado por muitos Xs (por estarem correlacionados), nenhum dos X correlacionados pode fornecer uma "prova" (significância estatística) suficiente para ser um preditor real.

As respostas anteriores (maravilhosas) fazem um ótimo trabalho ao explicar por que esse é o caso.

Tal Galili
fonte
3

Suponha que duas pessoas colaboraram e realizaram descobertas científicas. É fácil contar suas contribuições únicas (quem fez o que) quando duas são pessoas totalmente diferentes (uma é especialista em teoria e a outra é boa em experimentos), enquanto é difícil distinguir suas influências únicas (coeficientes em regressão) quando são gêmeos agindo da mesma forma.

Jovem
fonte
2

Se dois regressores estiverem perfeitamente correlacionados, será impossível calcular seus coeficientes; é útil considerar por que seria difícil de interpretar se pudéssemos calculá-los . De fato, isso explica por que é difícil interpretar variáveis ​​que não estão perfeitamente correlacionadas, mas que também não são verdadeiramente independentes.

Suponha que nossa variável dependente seja o suprimento diário de peixe em Nova York, e nossas variáveis ​​independentes incluam uma para chover naquele dia e outra para a quantidade de isca comprada naquele dia. O que não percebemos quando coletamos nossos dados é que toda vez que chove, os pescadores não compram isca e, toda vez que não, eles compram uma quantidade constante de isca. Então Bait e Rain estão perfeitamente correlacionados e, quando executamos nossa regressão, não podemos calcular seus coeficientes. Na realidade, Bait e Rain provavelmente não estão perfeitamente correlacionados, mas não gostaríamos de incluí-los como regressores sem, de alguma forma, limpá-los de sua endogeneidade.

Mitch Flax
fonte
1

Penso que a armadilha variável variável fornece uma outra possibilidade útil para ilustrar por que a multicolinearidade é um problema. Lembre-se de que surge quando temos um conjunto constante e completo de manequins no modelo. Então, a soma dos manequins soma um, a constante, tão multicolinearidade.

Por exemplo, um manequim para homens e outro para mulheres:

yi=β0+β1Mani+β2Womani+ui

A interpretação padrão de é a alteração esperada em resultante da alteração do de 0 para 1. Da mesma forma, é a alteração esperada em resultante da alteração do de 0 para 1. Y H um n i p 2 Y W o m um n iβ1YManiβ2YWomani

Mas, o que deve representar ...? É , portanto, o resultado esperado para pessoas que não são homens nem mulheres ... provavelmente é seguro dizer que, para praticamente todos os conjuntos de dados que você encontrará, isso não é possível. uma pergunta útil a ser feita :-). E ( y i | H um n i = 0 , W o m um n i = 0 )β0E(yi|Mani=0,Womani=0)

Christoph Hanck
fonte