No meu entendimento, variáveis altamente correlacionadas não causarão problemas de multicolinearidade no modelo aleatório de floresta (por favor, corrija-me se estiver errado). No entanto, por outro lado, se eu tiver muitas variáveis contendo informações semelhantes, o modelo pesará muito nesse conjunto e não nos outros?
Por exemplo, existem dois conjuntos de informações (A, B) com o mesmo poder preditivo. As variáveis , , ... X_ {1000} contêm todas as informações A e apenas Y contêm as informações B. Quando as variáveis de amostragem aleatória, a maioria das árvores cresce na informação A e, como resultado, as informações B não são totalmente capturadas?
multicollinearity
como NÃO tendo efeito no modelo de floresta aleatória. Por exemplo, aqui , a resposta mais votada diz que "nenhuma parte do modelo de floresta aleatória é prejudicada por variáveis altamente colineares". Isso tem alguma validade?Segmento antigo, mas não concordo com uma afirmação geral de que colinearidade não é um problema com modelos florestais aleatórios. Quando o conjunto de dados possui dois (ou mais) recursos correlatos, do ponto de vista do modelo, qualquer um desses recursos correlatos pode ser usado como preditor, sem preferência concreta de um sobre os outros.
No entanto, uma vez que um deles é usado, a importância de outros é significativamente reduzida, pois efetivamente a impureza que eles podem remover já é removida pelo primeiro recurso.
Como conseqüência, eles terão uma menor importância relatada. Isso não é um problema quando queremos usar a seleção de recursos para reduzir o sobreajuste, pois faz sentido remover recursos que são na sua maioria duplicados por outros recursos. Mas, ao interpretar os dados , pode levar à conclusão incorreta de que uma das variáveis é um forte preditor enquanto os outros do mesmo grupo não são importantes, enquanto na verdade eles são muito próximos em termos de relacionamento com a variável resposta.
O efeito desse fenômeno é um pouco reduzido graças à seleção aleatória de recursos na criação de cada nó, mas em geral o efeito não é removido completamente.
A descrição acima é basicamente baseada aqui: Selecionando bons recursos
fonte