Como a floresta aleatória extrema difere da floresta aleatória?

18

A implementação do ER é mais eficiente ( Extreme Gradient Boostingé semelhante ao aumento do gradiente) - a diferença é importante do ponto de vista prático? Há um pacote R que os implementa. É um novo algoritmo que supera a implementação "genérica" ​​(pacote RandomForest da R) não apenas em termos de eficiência ou também em algumas outras áreas?

Floresta aleatória extrema http://link.springer.com/article/10.1007%2Fs10994-006-6226-1

Qbik
fonte

Respostas:

20

Isso é bastante simples - o RF otimiza as divisões nas árvores (por exemplo, selecione aquelas que oferecem melhor ganho de informações em relação à decisão) e o ERF as faz aleatoriamente. Agora,

  • custos de otimização (não muito, mas ainda), portanto, o ERF geralmente é mais rápido.
  • a otimização pode contribuir para a correlação de árvores no conjunto ou sobre-ajuste geral, portanto os ERFs são provavelmente mais robustos, especialmente se o sinal for fraco.

Indo ainda mais nessa direção, você pode ganhar velocidade extra equalizando as divisões em cada nível de árvore, convertendo assim árvores em samambaias , o que também é bastante interessante; existe minha implementação R de tal indivíduo.


fonte
Esse link está quebrado, use CVLAB: Ferns
smci
Suponho que as árvores criadas por ERF são muito maiores, em seguida, aqueles de RF, porque RF usa otimização que knowlege compressa de conjunto de dados em árvores menores
Qbik