Árvore de aumento de gradiente vs floresta aleatória

110

O aumento da árvore de gradiente, conforme proposto por Friedman, usa as árvores de decisão como aprendizes básicos. Gostaria de saber se devemos tornar a árvore de decisão básica o mais complexa possível (totalmente crescida) ou mais simples? Existe alguma explicação para a escolha?

A floresta aleatória é outro método de conjunto que usa as árvores de decisão como aprendizes básicos. Com base no meu entendimento, geralmente usamos as árvores de decisão quase totalmente crescidas em cada iteração. Estou certo?

FihopZz
fonte
11
Você pode encontrar outra referência muito boa para árvores impulsionaram aqui: xgboost.readthedocs.io/en/latest/model.html
Naghmeh
@Naghmeh - link morto; parece ter sido movido para xgboost.readthedocs.io/en/latest/tutorials/model.html
mlibby

Respostas:

149

error = bias + variance

  • O impulso é baseado em alunos fracos (alto viés, baixa variação). Em termos de árvores de decisão, os alunos fracos são árvores rasas, às vezes até pequenas como tocos de decisão (árvores com duas folhas). Aumentar reduz o erro principalmente reduzindo o viés (e também, até certo ponto, a variação, agregando a saída de muitos modelos).
  • Por outro lado, a Random Forest usa como você disse as árvores de decisão totalmente crescidas (baixa tendência, alta variação). Ele aborda a tarefa de redução de erros da maneira oposta: reduzindo a variação. As árvores são tornadas não correlacionadas para maximizar a diminuição da variação, mas o algoritmo não pode reduzir o viés (que é um pouco maior que o de uma árvore individual na floresta). Daí a necessidade de árvores grandes e sem poda, para que o viés seja inicialmente o mais baixo possível.

Observe que, ao contrário do Boosting (que é seqüencial), o RF cresce árvores em paralelo . O termo iterativeque você usou é, portanto, inadequado.

Antoine
fonte
11
"As árvores são tornadas não correlacionadas para maximizar a diminuição da variação, mas o algoritmo não pode reduzir o viés (que é um pouco maior que o de uma árvore individual na floresta)" - a parte aproximadamente "ligeiramente maior que o viés de um indivíduo árvore na floresta "parece incorreta. Consulte web.stanford.edu/~hastie/Papers/ESLII.pdf, seção 15.4.2: "Como no ensacamento, o viés de uma floresta aleatória é o mesmo que o viés de qualquer uma das árvores individuais amostradas". Talvez você queira dizer "um pouco mais alto do que o viés de uma única árvore totalmente adaptada aos dados originais"?
Adrian
11
@gung Acho que há uma pergunta-chave sem resposta no OP, que é: por que não usar uma árvore totalmente crescida na 1ª etapa do GBM? Por que usar uma sequência de alunos fracos é melhor do que uma única árvore totalmente crescida? Estou curioso sobre isso
ftxx 13/09/18
55

Esta questão é abordada neste post muito agradável. Por favor, dê uma olhada nele e as referências nele. http://fastml.com/what-is-better-gradient-boosted-trees-or-random-forest/

Observe no artigo que ele fala sobre calibração e links para outro (bom) post sobre isso. Ainda assim, acho que o artigo Obtendo probabilidades calibradas do Boosting fornece uma melhor compreensão do que é a calibração no contexto dos classificadores aprimorados e quais são os métodos padrão para realizá-la.

E, finalmente, falta um aspecto (um pouco mais teórico). Tanto o RF quanto o GBM são métodos de conjunto, o que significa que você cria um classificador com um grande número de classificadores menores. Agora, a diferença fundamental está no método usado:

  1. O RF usa árvores de decisão, que são muito propensas a sobreajuste. Para obter maior precisão, a RF decide criar um grande número deles com base no ensacamento . A idéia básica é reamostrar os dados repetidamente e, para cada amostra, treinar um novo classificador. Classificadores diferentes superestimam os dados de uma maneira diferente e, através do voto, essas diferenças são calculadas em média.
  2. O GBM é um método impulsionador, baseado em classificadores fracos . A idéia é adicionar um classificador de cada vez, para que o próximo seja treinado para melhorar o conjunto já treinado. Observe que para RF cada iteração, o classificador é treinado independentemente do restante.
jpmuc
fonte
3
Seria uma conclusão justa da sua resposta que a RF superaplique mais que o GBM?
8forty
4
@ 8forty Eu não chegaria a essa conclusão - enquanto uma única árvore em RF superajustará mais do que uma única árvore em GBM (porque estas são muito menores), na RF esse super ajuste será calculado em média quando empregar muitas árvores, enquanto em GBM Quanto mais árvores você adicionar, maior o risco de sobreajuste. Em suma, como N (número de árvores utilizadas) vai para o infinito, espero RF para overfit muito menos do GBM
Ant