Quais algoritmos de empacotamento são sucessores dignos da Floresta Aleatória?

14

Para aumentar os algoritmos, eu diria que eles evoluíram muito bem. No início de 1995, o AdaBoost foi introduzido e, depois de algum tempo, era o Gradient Boosting Machine (GBM). Recentemente, foi lançado o XGBoost, por volta de 2015, que é preciso, lida com o excesso de ajustes e se tornou vencedor de várias competições do Kaggle. Em 2017, o LightGBM foi introduzido pela Microsoft e oferece um tempo de treinamento significativamente menor em comparação com o XGBoost. Além disso, o CatBoost foi introduzido pelo Yandex para lidar com recursos categóricos.

A Random Forest foi introduzida no início dos anos 2000, mas houve algum sucessor digno dela? Eu acho que se existisse um algoritmo de empacotamento melhor do que o Random Forest (que pode ser facilmente aplicado na prática), ele teria ganhado alguma atenção em lugares como o Kaggle. Além disso, por que impulsionar se tornou a técnica de conjunto mais popular, é porque você pode construir menos árvores para uma previsão ideal?

Marius
fonte
1
O adaBoost foi realmente lançado em 1995, mas esse é um ponto menor que não altera sua tese fundamental.
jbowman
3
Desde florestas aleatórias, também vimos a introdução de árvores extremamente aleatórias , embora eu não esteja realmente ciente de qualquer boa evidência de que essas florestas sejam superadas com consistência, portanto elas podem não ser um sucessor "digno" ...
Jake Westfall 10/05
1
O BART ( arxiv.org/abs/0806.3286 ) é um modelo bayesiano que evoluiu da única árvore Bayesiana CART e é inspirado nos métodos clássicos de ensemble. Vale a pena explorar.
Zen
boosting se tornou mais popular, uma vez que lida com muitos problemas com sucesso com técnicas aluno fracos
Refael
Vale a pena mencionar as florestas gulosas regularizadas (lentas, mas com bons resultados) e florestas aleatórias quantílicas por seus efeitos colaterais frios.
Michael M

Respostas:

3

O xgboost, o catboost e o lightgbm usam alguns recursos da floresta aleatória (amostragem aleatória de variáveis ​​/ observações), então eu acho que eles são um sucessor do reforço e da RF juntos e tomam as melhores coisas de ambos. ;)

PhilippPro
fonte