Não sou especialista em floresta aleatória, mas entendo claramente que o principal problema da floresta aleatória é a geração (aleatória) de árvores. Você pode me explicar como as árvores são geradas? (ou seja, qual é a distribuição usada para geração de árvores?)
Desde já, obrigado !
fonte
A idéia principal é o procedimento de ensacamento, não tornando as árvores aleatórias. Em detalhes, cada árvore é construída sobre uma amostra de objetos desenhados com substituição do conjunto original; portanto, cada árvore tem alguns objetos que não viu, o que torna o conjunto mais heterogêneo e, portanto, melhor na generalização.
Além disso, as árvores estão sendo enfraquecidas de tal forma que em cada divisão apenas M (ou
mtry
) atributos selecionados aleatoriamente são considerados; M é geralmente uma raiz quadrada do número de atributos no conjunto. Isso garante que as árvores sejam menos ajustadas, pois não são podadas. Você pode encontrar mais detalhes aqui .Por outro lado, existe uma variante de RF chamada Extreme Random Forest, na qual as árvores são feitas de maneira aleatória (não há otimização de divisões) - consulte, acho essa referência .
fonte