O aumento da árvore de gradiente, conforme proposto por Friedman, usa as árvores de decisão como aprendizes básicos. Gostaria de saber se devemos tornar a árvore de decisão básica o mais complexa possível (totalmente crescida) ou mais simples? Existe alguma explicação para a escolha?
A floresta aleatória é outro método de conjunto que usa as árvores de decisão como aprendizes básicos. Com base no meu entendimento, geralmente usamos as árvores de decisão quase totalmente crescidas em cada iteração. Estou certo?
Respostas:
Observe que, ao contrário do Boosting (que é seqüencial), o RF cresce árvores em paralelo . O termo
iterative
que você usou é, portanto, inadequado.fonte
Esta questão é abordada neste post muito agradável. Por favor, dê uma olhada nele e as referências nele. http://fastml.com/what-is-better-gradient-boosted-trees-or-random-forest/
Observe no artigo que ele fala sobre calibração e links para outro (bom) post sobre isso. Ainda assim, acho que o artigo Obtendo probabilidades calibradas do Boosting fornece uma melhor compreensão do que é a calibração no contexto dos classificadores aprimorados e quais são os métodos padrão para realizá-la.
E, finalmente, falta um aspecto (um pouco mais teórico). Tanto o RF quanto o GBM são métodos de conjunto, o que significa que você cria um classificador com um grande número de classificadores menores. Agora, a diferença fundamental está no método usado:
fonte