Deveria se preocupar com a multicolinearidade ao usar modelos não lineares?

13

Digamos que temos um problema de classificação binária com recursos principalmente categóricos. Usamos algum modelo não linear (por exemplo, XGBoost ou Random Forests) para aprendê-lo.

  • Ainda se deve preocupar com a multicolinearidade? Por quê?
  • Se a resposta acima for verdadeira, como combatê-la, considerando que estamos usando esses tipos de modelos não lineares?
Josh
fonte

Respostas:

7

A multicolinearidade não será um problema para certos modelos. Como floresta aleatória ou árvore de decisão. Por exemplo, se tivermos duas colunas idênticas, a árvore de decisão / floresta aleatória automaticamente "descartará" uma coluna em cada divisão. E o modelo ainda funcionará bem.

Além disso, a regularização é uma maneira de "corrigir" o problema de multicolinearidade. Minha resposta Os métodos de regularização para regressão logística fornecem detalhes.

Haitao Du
fonte
5
Eu acho que isso seria melhorado se você explicasse exatamente qual é o problema que está sendo "corrigido" pela regularização.
Matthew Drury
2

Tarde para a festa, mas aqui está a minha resposta de qualquer maneira, e é "Sim", deve-se sempre se preocupar com a colinearidade, independentemente de o modelo / método ser linear ou não, ou a principal tarefa ser a previsão ou classificação.

Suponha um número de covariáveis ​​/ características linearmente correlacionadas presentes no conjunto de dados e na Floresta Aleatória como método. Obviamente, a seleção aleatória por nó pode escolher apenas (ou principalmente) recursos colineares que podem / resultarão em uma divisão ruim e isso pode ocorrer repetidamente, afetando negativamente o desempenho.

Agora, os recursos colineares podem ser menos informativos sobre o resultado do que os outros recursos (não colineares) e, como tal, devem ser considerados para eliminação do conjunto de recursos de qualquer maneira. No entanto, suponha que os recursos tenham uma classificação alta na lista 'importância dos recursos' produzida pela RF. Como tal, eles seriam mantidos no conjunto de dados aumentando desnecessariamente a dimensionalidade. Portanto, na prática, eu sempre, como uma etapa exploratória (dentre muitas relacionadas), verificava a associação em pares dos recursos, incluindo correlação linear.

dnqxt
fonte
Eu acredito que há casos em que multi-colinearidade pode ser ignorada com segurança, alguns dos casos são discutidos aqui: statisticalhorizons.com/multicollinearity
Dr. Nisha Arora
0
  1. Ainda se deve preocupar com a multicolinearidade? Por quê?

Se o modelo não linear for baseado em árvore, você não deve considerá-lo sério. Um modelo de árvore diferente terá um método de negociação diferente, como a floresta aleatória manterá os dois (porque eles constroem a árvore de forma independente e selecionam aleatoriamente o recurso para todas as árvores), mas isso não afeta o desempenho da previsão, mesmo que você remova o redundante. Mas para o xgboost, ele escolherá qualquer um deles e o utilizará até a última construção da árvore.

  1. Se a resposta acima for verdadeira, como combatê-la, considerando que estamos usando esses tipos de modelos não lineares?

É apenas sobre o significado da interpretação, portanto, remova a variável altamente correlacionada.

wolfe
fonte
-3

A multicolinearidade é sempre um problema possível. Variáveis ​​que são preditores no modelo afetarão a previsão quando estiverem linearmente relacionadas (ou seja, quando houver colinearidade).

Michael R. Chernick
fonte
1
Obrigado, se (1) o foco é o desempenho da previsão (e não a interpretabilidade) e (2) o modelo não é linear, você se importaria de explicar por que isso ainda pode ser um problema? (e exatamente como ele se manifestaria?)
Josh
Essas variáveis ​​que são preditivas no modelo afetarão a previsão quando elas estiverem linearmente relacionadas (ou seja, a colinearidade está presente).
Michael R. Chernick
1
Afetar a previsão como, exatamente? BTW, stats.stackexchange.com/a/138082/99274 , coloque alguns links em sua resposta ou enfrente a ira da multidão "esteve lá, fez aquela".
Carl
7
Como a classificação está tão intimamente relacionada à previsão, e a predição tende a não sofrer de multicolinearidade, é importante apoiar sua afirmação de que é sempre um "problema possível", especialmente para os modelos específicos mencionados na pergunta. Que tipo de problema seria esse para a classificação e por quê?
whuber
12
Tenho certeza que você está implorando a pergunta. Whuber perguntou por que a previsão sofre de multicolinearidade e você basicamente respondeu "A previsão sofre de multicolinearidade porque a previsão sofre de multicolinearidade".
Matthew Drury