Digamos que temos um problema de classificação binária com recursos principalmente categóricos. Usamos algum modelo não linear (por exemplo, XGBoost ou Random Forests) para aprendê-lo.
- Ainda se deve preocupar com a multicolinearidade? Por quê?
- Se a resposta acima for verdadeira, como combatê-la, considerando que estamos usando esses tipos de modelos não lineares?
Tarde para a festa, mas aqui está a minha resposta de qualquer maneira, e é "Sim", deve-se sempre se preocupar com a colinearidade, independentemente de o modelo / método ser linear ou não, ou a principal tarefa ser a previsão ou classificação.
Suponha um número de covariáveis / características linearmente correlacionadas presentes no conjunto de dados e na Floresta Aleatória como método. Obviamente, a seleção aleatória por nó pode escolher apenas (ou principalmente) recursos colineares que podem / resultarão em uma divisão ruim e isso pode ocorrer repetidamente, afetando negativamente o desempenho.
Agora, os recursos colineares podem ser menos informativos sobre o resultado do que os outros recursos (não colineares) e, como tal, devem ser considerados para eliminação do conjunto de recursos de qualquer maneira. No entanto, suponha que os recursos tenham uma classificação alta na lista 'importância dos recursos' produzida pela RF. Como tal, eles seriam mantidos no conjunto de dados aumentando desnecessariamente a dimensionalidade. Portanto, na prática, eu sempre, como uma etapa exploratória (dentre muitas relacionadas), verificava a associação em pares dos recursos, incluindo correlação linear.
fonte
Se o modelo não linear for baseado em árvore, você não deve considerá-lo sério. Um modelo de árvore diferente terá um método de negociação diferente, como a floresta aleatória manterá os dois (porque eles constroem a árvore de forma independente e selecionam aleatoriamente o recurso para todas as árvores), mas isso não afeta o desempenho da previsão, mesmo que você remova o redundante. Mas para o xgboost, ele escolherá qualquer um deles e o utilizará até a última construção da árvore.
É apenas sobre o significado da interpretação, portanto, remova a variável altamente correlacionada.
fonte
A multicolinearidade é sempre um problema possível. Variáveis que são preditores no modelo afetarão a previsão quando estiverem linearmente relacionadas (ou seja, quando houver colinearidade).
fonte