Uma floresta aleatória é uma coleção de árvores de decisão formada pela seleção aleatória de apenas alguns recursos para construir cada árvore (e algumas vezes agrupando os dados de treinamento). Aparentemente, eles aprendem e generalizam bem. Alguém já fez amostragens no MCMC do espaço em árvore de decisão ou as comparou com florestas aleatórias? Sei que pode ser computacionalmente mais caro executar o MCMC e salvar todas as árvores amostradas, mas estou interessado nas características teóricas desse modelo, não nos custos computacionais. O que quero dizer é algo como isto:
- Construa uma árvore de decisão aleatória (provavelmente teria um desempenho horrível)
- Calcule a probabilidade da árvore com algo como , ou talvez adicione um termo .
- Escolha uma etapa aleatória para alterar a árvore e selecione com base na probabilidade .
- A cada N etapas, salve uma cópia da árvore atual
- Volte para 3 por alguns tempos N * M grandes
- Use a coleção de M árvores salvas para fazer previsões
Isso daria um desempenho semelhante ao das florestas aleatórias? Observe que aqui não estamos descartando bons dados ou recursos em nenhuma etapa, diferentemente das florestas aleatórias.
fonte
Respostas:
Isso foi feito há 13 anos por Chapman, George e McCulloch (1998, JASA) . É claro que tem havido uma enorme literatura sobre árvores de regressão bayesiana que surgiu dessa idéia.
fonte
Infelizmente, Chipman et al. na abordagem Bayesiana do CART, apenas extrai a árvore mais provável. Eles nunca tentaram calcular a média das árvores e comparar o desempenho com a Random Forest e Extra-Trees.
Acabei de ler o jornal BART de Chipman. Se bem entendi, é uma média bayesiana de K amostras sobre uma coleção de m árvores. É interessante de várias maneiras e parece ter um desempenho muito bom. Quando m = '1', é uma média bayesiana simples de K amostras de 1 árvore, provenientes da posterior. No entanto, não foram realizados muitos testes nesse aspecto específico. E eu ainda estaria interessado em saber como a Random Forest ou Extra-Trees se compara ao verdadeiro modelo de Bayes.
fonte