O wiki discute os problemas que surgem quando a multicolinearidade é um problema na regressão linear. O problema básico é que a multicolinearidade resulta em estimativas instáveis de parâmetros, o que dificulta a avaliação do efeito de variáveis independentes sobre variáveis dependentes.
Eu entendo as razões técnicas por trás dos problemas (pode não ser capaz de inverter , mal-condicionado etc), mas estou à procura de uma explicação mais intuitiva (talvez geométrica?) Para este problema.X ′ X
Existe uma forma geométrica ou talvez alguma outra forma de explicação facilmente compreensível sobre por que a multicolinearidade é problemática no contexto da regressão linear?
Respostas:
Considere o caso mais simples em que é regredido em relação a e e onde e são altamente correlacionados positivamente. Em seguida, o efeito de em é difícil de distinguir do efeito de em , porque qualquer aumento na tende a ser associada com um aumento em .X Z X Z X Y Z Y X ZY X Z X Z X Y Z Y X Z
Outra maneira de analisar isso é considerar a equação. Se escrevermos , o coeficiente é o aumento de para cada aumento de unidade em enquanto mantém constante. Mas, na prática, muitas vezes é impossível manter constante e a correlação positiva entre e significa que um aumento unitário em é geralmente acompanhado por algum aumento de ao mesmo tempo.b 1 Y X Z Z X Z X ZY=b0+b1X+b2Z+e b1 Y X Z Z X Z X Z
Uma explicação semelhante, porém mais complicada, vale para outras formas de multicolinearidade.
fonte
Eu estava comendo sushi uma vez e pensei que poderia fazer uma boa demonstração intuitiva de problemas mal condicionados. Suponha que você queira mostrar a alguém um avião usando dois paus tocando suas bases.
Você provavelmente seguraria os pauzinhos ortogonais um ao outro. O efeito de qualquer tipo de tremor de suas mãos no avião faz com que ele balance um pouco em torno do que você esperava mostrar às pessoas, mas depois de observá-lo por um tempo, elas têm uma boa idéia do plano que você pretende demonstrar.
Mas digamos que você aproxime as pontas dos gravetos e observe o efeito de suas mãos tremendo. O avião que ele formar ficará muito mais selvagem. Seu público precisará assistir por mais tempo para ter uma boa idéia do plano que você está tentando demonstrar.
fonte
A abordagem geométrica é a de considerar o mínimos quadrados projecção de sobre o subespaço gerado por .Y X
Digamos que você tenha um modelo:
Nosso espaço de estimativa é o plano determinado pelos vetores e e o problema é encontrar coordenadas correspondentes a que descreverão o vetor , uma projeção de quadrados mínimos de nesse plano.X1 X2 (β1,β2) Y^ Y
Agora suponha que , ou seja, eles são colineares. Então, o subespaço determinado por e é apenas uma linha e temos apenas um grau de liberdade. Portanto, não podemos determinar dois valores e conforme solicitado.X1=2X2 X1 X2 β1 β2
fonte
Duas pessoas estão empurrando uma pedra para cima de uma colina. Você quer saber o quanto cada um deles está pressionando. Suponha que você os observe se juntarem por dez minutos e a pedra se move 10 pés. O primeiro cara fez todo o trabalho e o segundo simplesmente fingiu? Ou vice-versa? Ou 50-50? Como as duas forças estão trabalhando exatamente ao mesmo tempo, você não pode separar a força de nenhuma delas separadamente. Tudo o que você pode dizer é que a força combinada deles é de 1 pé por minuto.
Agora imagine que o primeiro cara empurra por um minuto, depois nove minutos com o segundo, e um minuto final é apenas o segundo empurrando. Agora você pode usar estimativas de forças no primeiro e no último minuto para descobrir a força de cada pessoa separadamente. Mesmo que eles ainda estejam trabalhando ao mesmo tempo, o fato de haver um pouco de diferença permite obter estimativas da força de cada um.
Se você visse cada homem pressionando independentemente por dez minutos completos, isso lhe daria estimativas mais precisas das forças do que se houvesse uma grande sobreposição nas forças.
Deixo como exercício para o leitor estender esse caso a um homem que está subindo a colina e outro que está descendo a ladeira (ainda funciona).
A multicolinearidade perfeita impede que você calcule as forças separadamente; quase multicolinearidade gera erros padrão maiores.
fonte
A maneira como penso sobre isso realmente é em termos de informação. Diga cada um dos e tem alguma informação sobre . Quanto mais correlacionados e estiverem um com o outro, mais o conteúdo de informações sobre de e será semelhante ou sobreposto, a tal ponto que para perfeitamente correlacionado e , é realmente o mesmo conteúdo de informação. Se agora colocarmos e no mesmo modelo (regressão) para explicar , o modelo tentará "distribuir" as informações que (X1 X2 Y X1 X2 Y X1 X2 X1 X2 X1 X2 Y X1 , ) contém cerca de para cada um dos e , de uma maneira um tanto arbitrária. Não há realmente uma boa maneira de distribuir isso, pois qualquer divisão das informações ainda leva a manter as informações totais de ( , ) no modelo (para 's perfeitamente correlacionados , esse é realmente um caso de não identificação). Isso leva a estimativas individuais instáveis para os coeficientes individuais de e , embora se você observar os valores previstos em muitas execuções e estimativas de eX2 Y X1 X2 X1 X2 X X1 X2 b1X1+b2X2 b1 b2 , estes serão bastante estáveis.
fonte
Minha intuição (muito) leiga para isso é que o modelo OLS precisa de um certo nível de "sinal" na variável X para detectar que ele fornece uma previsão "boa" para Y. Se o mesmo "sinal" for espalhado por muitos Xs (por estarem correlacionados), nenhum dos X correlacionados pode fornecer uma "prova" (significância estatística) suficiente para ser um preditor real.
As respostas anteriores (maravilhosas) fazem um ótimo trabalho ao explicar por que esse é o caso.
fonte
Suponha que duas pessoas colaboraram e realizaram descobertas científicas. É fácil contar suas contribuições únicas (quem fez o que) quando duas são pessoas totalmente diferentes (uma é especialista em teoria e a outra é boa em experimentos), enquanto é difícil distinguir suas influências únicas (coeficientes em regressão) quando são gêmeos agindo da mesma forma.
fonte
Se dois regressores estiverem perfeitamente correlacionados, será impossível calcular seus coeficientes; é útil considerar por que seria difícil de interpretar se pudéssemos calculá-los . De fato, isso explica por que é difícil interpretar variáveis que não estão perfeitamente correlacionadas, mas que também não são verdadeiramente independentes.
Suponha que nossa variável dependente seja o suprimento diário de peixe em Nova York, e nossas variáveis independentes incluam uma para chover naquele dia e outra para a quantidade de isca comprada naquele dia. O que não percebemos quando coletamos nossos dados é que toda vez que chove, os pescadores não compram isca e, toda vez que não, eles compram uma quantidade constante de isca. Então Bait e Rain estão perfeitamente correlacionados e, quando executamos nossa regressão, não podemos calcular seus coeficientes. Na realidade, Bait e Rain provavelmente não estão perfeitamente correlacionados, mas não gostaríamos de incluí-los como regressores sem, de alguma forma, limpá-los de sua endogeneidade.
fonte
Penso que a armadilha variável variável fornece uma outra possibilidade útil para ilustrar por que a multicolinearidade é um problema. Lembre-se de que surge quando temos um conjunto constante e completo de manequins no modelo. Então, a soma dos manequins soma um, a constante, tão multicolinearidade.
Por exemplo, um manequim para homens e outro para mulheres:
A interpretação padrão de é a alteração esperada em resultante da alteração do de 0 para 1. Da mesma forma, é a alteração esperada em resultante da alteração do de 0 para 1. Y H um n i p 2 Y W o m um n iβ1 Y Mani β2 Y Womani
Mas, o que deve representar ...? É , portanto, o resultado esperado para pessoas que não são homens nem mulheres ... provavelmente é seguro dizer que, para praticamente todos os conjuntos de dados que você encontrará, isso não é possível. uma pergunta útil a ser feita :-). E ( y i | H um n i = 0 , W o m um n i = 0 )β0 E(yi|Mani=0,Womani=0)
fonte