Amostragem do MCMC do espaço da árvore de decisão vs. floresta aleatória

11

Uma floresta aleatória é uma coleção de árvores de decisão formada pela seleção aleatória de apenas alguns recursos para construir cada árvore (e algumas vezes agrupando os dados de treinamento). Aparentemente, eles aprendem e generalizam bem. Alguém já fez amostragens no MCMC do espaço em árvore de decisão ou as comparou com florestas aleatórias? Sei que pode ser computacionalmente mais caro executar o MCMC e salvar todas as árvores amostradas, mas estou interessado nas características teóricas desse modelo, não nos custos computacionais. O que quero dizer é algo como isto:

  1. Construa uma árvore de decisão aleatória (provavelmente teria um desempenho horrível)
  2. Calcule a probabilidade da árvore com algo como , ou talvez adicione um termo .P(Tree|Data)P(Data|Tree)Pprior(Tree)
  3. Escolha uma etapa aleatória para alterar a árvore e selecione com base na probabilidade .P(Tree|Data)
  4. A cada N etapas, salve uma cópia da árvore atual
  5. Volte para 3 por alguns tempos N * M grandes
  6. Use a coleção de M árvores salvas para fazer previsões

Isso daria um desempenho semelhante ao das florestas aleatórias? Observe que aqui não estamos descartando bons dados ou recursos em nenhuma etapa, diferentemente das florestas aleatórias.

alta largura de banda
fonte
2
Não tenho certeza se esse é exatamente o tipo de procedimento que você esboça, mas existe o BART . Aqui está um link para um PDF
joran

Respostas:

4

Infelizmente, Chipman et al. na abordagem Bayesiana do CART, apenas extrai a árvore mais provável. Eles nunca tentaram calcular a média das árvores e comparar o desempenho com a Random Forest e Extra-Trees.

Acabei de ler o jornal BART de Chipman. Se bem entendi, é uma média bayesiana de K amostras sobre uma coleção de m árvores. É interessante de várias maneiras e parece ter um desempenho muito bom. Quando m = '1', é uma média bayesiana simples de K amostras de 1 árvore, provenientes da posterior. No entanto, não foram realizados muitos testes nesse aspecto específico. E eu ainda estaria interessado em saber como a Random Forest ou Extra-Trees se compara ao verdadeiro modelo de Bayes.

Alex
fonte