Como a floresta aleatória gera a floresta aleatória

20

Não sou especialista em floresta aleatória, mas entendo claramente que o principal problema da floresta aleatória é a geração (aleatória) de árvores. Você pode me explicar como as árvores são geradas? (ou seja, qual é a distribuição usada para geração de árvores?)

Desde já, obrigado !

Robin Girard
fonte

Respostas:

16

Implementações de RF diferem ligeiramente. Eu sei que a implementação proprietária da Salford Systems deveria ser melhor do que a da baunilha em R. Uma descrição do algoritmo está em ESL por Friedman-Hastie-Tibshirani, 2ª ed., 3ª impressão . Um capítulo inteiro (15) é dedicado à RF, e acho que é mais claro do que o artigo original. O algoritmo de construção de árvores é detalhado na p.588; não há necessidade de reproduzi-lo aqui, pois o livro está disponível online.

gappy
fonte
Muito obrigado pela sua resposta! Li este livro da primeira à última página, mas acho que era a edição 1 ... não sabia que estava disponível online.
22610 robin girard
19

A idéia principal é o procedimento de ensacamento, não tornando as árvores aleatórias. Em detalhes, cada árvore é construída sobre uma amostra de objetos desenhados com substituição do conjunto original; portanto, cada árvore tem alguns objetos que não viu, o que torna o conjunto mais heterogêneo e, portanto, melhor na generalização.

Além disso, as árvores estão sendo enfraquecidas de tal forma que em cada divisão apenas M (ou mtry) atributos selecionados aleatoriamente são considerados; M é geralmente uma raiz quadrada do número de atributos no conjunto. Isso garante que as árvores sejam menos ajustadas, pois não são podadas. Você pode encontrar mais detalhes aqui .

Por outro lado, existe uma variante de RF chamada Extreme Random Forest, na qual as árvores são feitas de maneira aleatória (não há otimização de divisões) - consulte, acho essa referência .

Amelio Vazquez-Reina
fonte
Desculpe, mas eu realmente não entendo sua resposta. O que você quer dizer com "Em detalhes, cada árvore é construída sobre uma amostra de objetos desenhados com substituição do conjunto original" Você pode dar mais precisão sobre onde encontro os detalhes "aqui"?
22610 robin girard
1
É assim que o ensacamento funciona; confira en.wikipedia.org/wiki/Bootstrap_aggregating . Aqui está um link (dificilmente visível nesse tema, eu admito) para a referência detalhada de RF.