A multicolinearidade é realmente um problema?

11

Atualmente, estou trabalhando em um projeto de modelagem preditiva: tentando aprender um modelo e fazer previsões em tempo real com base no modelo que aprendi offline.

Comecei a usar a regressão de cume recentemente, porque li que a regularização pode ajudar a reduzir o efeito da multicolinearidade.

No entanto, eu li este blog hoje. Estou totalmente confuso agora. Segundo este blog, a multicolinearidade NÃO prejudica tanto o poder preditivo de um modelo.

Então, no final, a multicolinearidade é um problema ou não?

user152503
fonte
2
é um problema em algumas configurações (por exemplo, OLS), não em outras configurações (como Árvore de Decisão ou com Regularização).
Haitao Du
6
@ hxd1011, eu diria, não exatamente. Ele é um problema se fazer a modelagem explicativo, mas algumas técnicas são melhores do que outros em enfrentá-lo (OLS vs. regressão cume). É menos um problema de previsão, como Rob J. Hyndman observa na publicação do blog citado.
Richard Hardy
1
É um problema maior se seus preditores forem medidos com erro. Com preditores perfeitamente medidos (como variáveis ​​categóricas sem problemas de medição), isso deve ser menos preocupante.
precisa saber é o seguinte
1
Micronumerosidade é o verdadeiro problema.
The Laconic

Respostas:

12

É um problema para inferência causal - ou melhor, indica dificuldades na inferência causal - mas não é um problema específico para previsão / previsão (a menos que seja tão extremo que impeça a convergência do modelo ou resulte em matrizes singulares e você não obterá previsões de qualquer maneira). Acho que esse também é o significado dessa publicação no blog. Parece que você pode estar insistindo em uma resposta sim ou não quando a resposta é que depende. Aqui está do que depende e por que pelo menos se pode dizer que a multicolinearidade (não perfeita) nunca é um motivo para excluir uma variável de um modelo - quaisquer problemas que a multicolinearidade indiquem não desaparecerão porque você descartou uma variável e parou vendo a colinearidade.

Preditores altamente correlacionados entre si simplesmente não melhoram suas previsões como fariam se não fossem colineares, mas ainda correlacionados separadamente com a variável de resultado; nenhum deles está fazendo muito mais trabalho do que o outro já está fazendo e faria sozinho de qualquer maneira. Talvez eles estejam tão fortemente relacionados um com o outro porque estão capturando basicamente o mesmo construto subjacente; nesse caso, nenhum deles está adicionando muito mais em cima do outro por um bom motivo, e seria impossível separá-los ontologicamente para fins preditivos de qualquer maneira, manipulando as unidades de observação para ter valores diferentes em cada uma das duas variáveis ​​preditoras, para que funcionem melhor como preditores. Mas isso não significa que incluir os dois no seu modelo como está é ruim ou errado.

Quando se trata de inferência causal, é um problema simplesmente porque nos impede de dizer com confiança, pelo menos, qual dos preditores colineares está fazendo a previsão e, portanto, a explicação e, presumivelmente, a causa. Com observações suficientes, você poderá identificar os efeitos separados mesmo de variáveis ​​altamente colineares (mas nunca perfeitamente colineares). É por isso que Rob Franzese e UMich gostam de chamar a multicolinearidade de "micronumerosidade". Sempre há alguma colinearidade entre preditores. Essa é uma das razões pelas quais geralmente precisamos de muitas observações. Às vezes, uma quantidade impossível, para nossas necessidades de inferência causal. Mas o problema é a complexidade do mundo e as circunstâncias infelizes que nos impedem de observar uma variedade mais ampla de situações em que fatores diferentes variam mais em relação um ao outro. A multicolinearidade é o sintoma dessa falta de dados úteis e a regressão multivariada é a cura (imperfeita). No entanto, muitas pessoas parecem pensar na multicolinearidade como algo que estão fazendo de errado com seu modelo e como se fosse uma razão para duvidar de quais descobertas elas têm.

DHW
fonte
7

Não é um problema para a modelagem preditiva quando tudo o que importa é a previsão e nada mais.

y=β+βxx+βzz+ε
z=αx

(XTX)1

y=β+βxx+βzαx+ε=β+β2x+ε,
β2βx+βzα

β^2

β^zβ^x=β2αβ^x(β^x,β^z)β^2y^β^2

xyβ^x

Aksakal
fonte
2

A multicolinearidade geralmente não é o melhor cenário para a análise de regressão. Nossa vida seria muito mais fácil se todos os preditores fossem ortogonais.

É um problema para a interpretação do modelo (tentando entender os dados):

  • A multicolinearidade afeta a variação dos estimadores de coeficiente e, portanto, a precisão da estimativa.
  • Assim, seria mais difícil rejeitar uma hipótese nula (devido aos erros padrão mais altos). Temos um problema de erro tipo II.
  • A adição ou exclusão de apenas algumas observações de amostra pode alterar substancialmente os coeficientes estimados
  • Os sinais do coeficiente estimado podem ser opostos aos esperados.

Imagine se você tiver que escrever um relatório ao seu chefe sobre seus dados. Você cria um modelo de multicolinearidade quase perfeito e informa seu chefe sobre o modelo. Você pode dizer " meu primeiro preditor está correlacionado positivamente com a resposta ... Vou lhe dizer mais por que ... Seu chefe está feliz, mas pede para você tentar novamente sem alguns pontos de dados. Seus coeficientes no seu novo modelo agora ... muito diferente , o coeficiente do seu primeiro preditor agora é negativo! Seu chefe não confiará mais em você! Seu modelo não é robusto.

R2

Olá Mundo
fonte
-1

Eu argumentaria que, se a correlação entre uma variável e outra variável (ou combinação linear de variáveis) mudar entre os dados dentro e fora da amostra, você poderá começar a ver a multicolinearidade afetando a precisão de fora da amostra previsões. A multicolinearidade apenas adiciona outra suposição (correlação consistente) que deve ser razoavelmente atendida para que seu modelo continue com bom desempenho.

Chris
fonte