Floresta aleatória não pode se superestimar?

10

Eu li alguma literatura que florestas aleatórias não podem se superestimar. Embora isso pareça ótimo, parece bom demais para ser verdade. É possível que os rfs se ajustem demais?

Coruja
fonte
5
Se ele pode caber, pode se ajustar demais. Em termos de RF, pense no que acontece se sua floresta não contiver árvores suficientes (digamos que sua floresta seja uma única árvore para tornar o efeito óbvio). Há mais problemas do que este, mas este é o mais óbvio.
Marc Claesen
Acabei de responder a outro tópico sobre RF que poderia facilmente superestimar se o número de preditores for grande.
horaceT

Respostas:

7

A floresta aleatória pode superestimar. Eu estou certo disso. O que geralmente se quer dizer é que o modelo não se ajustaria demais se você usar mais árvores.

Tente, por exemplo, estimar o modelo com uma floresta aleatória. Você receberá um erro de treinamento quase zero, mas um erro de previsão incorretoy=euog(x)+ϵ

Donbeo
fonte
A Random Forest reduz principalmente a variação, como pode se super-ajustar? @Donbeo poderia ser talvez porque, os modelos de árvore de decisão não tenham bom desempenho em extrapolação. Digamos que, para variável preditora anômala, o TD possa dar uma previsão ruim.
Itachi
Uma indicação clara de sobreajuste é que a variação residual é reduzida demais. O que você está tentando sugerir com sua primeira observação?
whuber
No trade-viés de variação, quando tentamos reduzir o viés, compensamos a variação. Assim, se x = 80 fornece y = 100, mas x = 81 fornece y = -100. Isso seria super adequado . Não é semelhante a ter alta variação. @whuber eu assumi que o excesso de equipamento é apenas por causa da alta variação. Não entendo como a redução da variação residual resulta em sobreajuste. Você pode, por favor, compartilhar algum papel para eu continuar lendo.
Itachi
2
xEu=1 1,2,,10yEuy=β0 0+β1 1x+β2x2++βkxkk=0 0,1 1,,9
@ Whuber Eu acho que você está perdendo o ponto sobre o que é "redução de variância". A floresta aleatória (e ensacamento em geral) não reduz a variação dos resíduos, mas a variação de suas previsões. Portanto, no seu exemplo, a cada passo que você fala sobre AUMENTA A variação :)
Davide ND