Atualmente, estou trabalhando em um projeto de modelagem preditiva: tentando aprender um modelo e fazer previsões em tempo real com base no modelo que aprendi offline.
Comecei a usar a regressão de cume recentemente, porque li que a regularização pode ajudar a reduzir o efeito da multicolinearidade.
No entanto, eu li este blog hoje. Estou totalmente confuso agora. Segundo este blog, a multicolinearidade NÃO prejudica tanto o poder preditivo de um modelo.
Então, no final, a multicolinearidade é um problema ou não?
regression
prediction
multicollinearity
ridge-regression
user152503
fonte
fonte
Respostas:
É um problema para inferência causal - ou melhor, indica dificuldades na inferência causal - mas não é um problema específico para previsão / previsão (a menos que seja tão extremo que impeça a convergência do modelo ou resulte em matrizes singulares e você não obterá previsões de qualquer maneira). Acho que esse também é o significado dessa publicação no blog. Parece que você pode estar insistindo em uma resposta sim ou não quando a resposta é que depende. Aqui está do que depende e por que pelo menos se pode dizer que a multicolinearidade (não perfeita) nunca é um motivo para excluir uma variável de um modelo - quaisquer problemas que a multicolinearidade indiquem não desaparecerão porque você descartou uma variável e parou vendo a colinearidade.
Preditores altamente correlacionados entre si simplesmente não melhoram suas previsões como fariam se não fossem colineares, mas ainda correlacionados separadamente com a variável de resultado; nenhum deles está fazendo muito mais trabalho do que o outro já está fazendo e faria sozinho de qualquer maneira. Talvez eles estejam tão fortemente relacionados um com o outro porque estão capturando basicamente o mesmo construto subjacente; nesse caso, nenhum deles está adicionando muito mais em cima do outro por um bom motivo, e seria impossível separá-los ontologicamente para fins preditivos de qualquer maneira, manipulando as unidades de observação para ter valores diferentes em cada uma das duas variáveis preditoras, para que funcionem melhor como preditores. Mas isso não significa que incluir os dois no seu modelo como está é ruim ou errado.
Quando se trata de inferência causal, é um problema simplesmente porque nos impede de dizer com confiança, pelo menos, qual dos preditores colineares está fazendo a previsão e, portanto, a explicação e, presumivelmente, a causa. Com observações suficientes, você poderá identificar os efeitos separados mesmo de variáveis altamente colineares (mas nunca perfeitamente colineares). É por isso que Rob Franzese e UMich gostam de chamar a multicolinearidade de "micronumerosidade". Sempre há alguma colinearidade entre preditores. Essa é uma das razões pelas quais geralmente precisamos de muitas observações. Às vezes, uma quantidade impossível, para nossas necessidades de inferência causal. Mas o problema é a complexidade do mundo e as circunstâncias infelizes que nos impedem de observar uma variedade mais ampla de situações em que fatores diferentes variam mais em relação um ao outro. A multicolinearidade é o sintoma dessa falta de dados úteis e a regressão multivariada é a cura (imperfeita). No entanto, muitas pessoas parecem pensar na multicolinearidade como algo que estão fazendo de errado com seu modelo e como se fosse uma razão para duvidar de quais descobertas elas têm.
fonte
Não é um problema para a modelagem preditiva quando tudo o que importa é a previsão e nada mais.
fonte
A multicolinearidade geralmente não é o melhor cenário para a análise de regressão. Nossa vida seria muito mais fácil se todos os preditores fossem ortogonais.
É um problema para a interpretação do modelo (tentando entender os dados):
Imagine se você tiver que escrever um relatório ao seu chefe sobre seus dados. Você cria um modelo de multicolinearidade quase perfeito e informa seu chefe sobre o modelo. Você pode dizer " meu primeiro preditor está correlacionado positivamente com a resposta ... Vou lhe dizer mais por que ... Seu chefe está feliz, mas pede para você tentar novamente sem alguns pontos de dados. Seus coeficientes no seu novo modelo agora ... muito diferente , o coeficiente do seu primeiro preditor agora é negativo! Seu chefe não confiará mais em você! Seu modelo não é robusto.
fonte
Eu argumentaria que, se a correlação entre uma variável e outra variável (ou combinação linear de variáveis) mudar entre os dados dentro e fora da amostra, você poderá começar a ver a multicolinearidade afetando a precisão de fora da amostra previsões. A multicolinearidade apenas adiciona outra suposição (correlação consistente) que deve ser razoavelmente atendida para que seu modelo continue com bom desempenho.
fonte