As variáveis ​​altamente correlacionadas na floresta aleatória não distorcem a precisão e a seleção de recursos?

32

No meu entendimento, variáveis ​​altamente correlacionadas não causarão problemas de multicolinearidade no modelo aleatório de floresta (por favor, corrija-me se estiver errado). No entanto, por outro lado, se eu tiver muitas variáveis ​​contendo informações semelhantes, o modelo pesará muito nesse conjunto e não nos outros?

Por exemplo, existem dois conjuntos de informações (A, B) com o mesmo poder preditivo. As variáveis , , ... X_ {1000} contêm todas as informações A e apenas Y contêm as informações B. Quando as variáveis ​​de amostragem aleatória, a maioria das árvores cresce na informação A e, como resultado, as informações B não são totalmente capturadas?X1X2X1000

Yoki
fonte

Respostas:

19

Isso está correto, mas, portanto, na maioria das subamostras onde a variável Y estava disponível, produziria a melhor divisão possível.

Você pode tentar aumentar o consumo de energia, para garantir que isso aconteça com mais frequência.

Você pode tentar a remoção da correlação recursiva, ou seja, por sua vez, para remover uma das duas variáveis ​​que juntas têm a correlação mais alta. Um limiar sensato para parar essa poda pode ser que qualquer par de correlações (pearson) seja menor que R2<.7

Você pode tentar a poda de importância variável recursiva, que é a vez de remover, por exemplo, 20% com a menor importância variável. Tente, por exemplo, rfcv do pacote randomForest.

Você pode tentar alguma decomposição / agregação de suas variáveis ​​redundantes.

Soren Havelund Welling
fonte
3
Em algumas fontes, vi multicollinearitycomo NÃO tendo efeito no modelo de floresta aleatória. Por exemplo, aqui , a resposta mais votada diz que "nenhuma parte do modelo de floresta aleatória é prejudicada por variáveis ​​altamente colineares". Isso tem alguma validade?
Hunle
5
Eu acho que você está lendo o NÃO literalmente. Os modelos de RF lidam com variáveis ​​correlacionadas / redundantes muito bem, sim. Mas isso não significa que seu modelo se beneficie necessariamente de acumular variáveis ​​não relacionadas ou completamente redundantes (por exemplo, recombinações lineares), mas também não falha. Eu apenas defendo a seleção modesta de variáveis, para esperar uma melhoria modesta do desempenho do modelo validado cruzadamente.
Soren Havelund Welling
24

Segmento antigo, mas não concordo com uma afirmação geral de que colinearidade não é um problema com modelos florestais aleatórios. Quando o conjunto de dados possui dois (ou mais) recursos correlatos, do ponto de vista do modelo, qualquer um desses recursos correlatos pode ser usado como preditor, sem preferência concreta de um sobre os outros.

No entanto, uma vez que um deles é usado, a importância de outros é significativamente reduzida, pois efetivamente a impureza que eles podem remover já é removida pelo primeiro recurso.

Como conseqüência, eles terão uma menor importância relatada. Isso não é um problema quando queremos usar a seleção de recursos para reduzir o sobreajuste, pois faz sentido remover recursos que são na sua maioria duplicados por outros recursos. Mas, ao interpretar os dados , pode levar à conclusão incorreta de que uma das variáveis ​​é um forte preditor enquanto os outros do mesmo grupo não são importantes, enquanto na verdade eles são muito próximos em termos de relacionamento com a variável resposta.

O efeito desse fenômeno é um pouco reduzido graças à seleção aleatória de recursos na criação de cada nó, mas em geral o efeito não é removido completamente.

A descrição acima é basicamente baseada aqui: Selecionando bons recursos

GDB
fonte
3
Este foi o meu artigo de seleção de recursos com RF, pois a importância variável é frequentemente usada como métrica bmcbioinformatics.biomedcentral.com/articles/10.1186/… Desde dois anos atrás, eu me tornei mais cético em relação à seleção de recursos. -validação se não for feita dentro de um loop de validação cruzada externa apropriado. Se feito corretamente, geralmente não vejo nenhuma ou apenas pouca otimização do desempenho da previsão. Agora, uso principalmente a seleção de recursos para simplificar as máquinas de previsão na produção ou para tornar um modelo final mais transparente.
Soren Havelund Welling
@SorenHavelundWelling - Você diz que "a seleção de recursos gera validação cruzada super-otimizada se não for realizada dentro de um loop de validação cruzada externa adequada". Você pode explicar isso ou se referir a uma fonte que explica isso? Vai contra tudo que li até agora ...
Jack Fleeting 27/03