Suposições aleatórias da floresta

43

Eu sou uma espécie de floresta aleatória, então ainda estou lutando com alguns conceitos básicos.
Na regressão linear, assumimos observações independentes, variação constante…

  • Quais são as suposições / hipóteses básicas que fazemos quando usamos floresta aleatória?
  • Quais são as principais diferenças entre floresta aleatória e bayes ingênuos em termos de suposições de modelo?
user1848018
fonte

Respostas:

33

Obrigado por uma pergunta muito boa! Vou tentar dar a minha intuição por trás disso.

Para entender isso, lembre-se dos "ingredientes" do classificador florestal aleatório (existem algumas modificações, mas este é o pipeline geral):

  1. Em cada etapa da construção de uma árvore individual, encontramos a melhor divisão de dados
  2. Ao construir uma árvore, usamos não todo o conjunto de dados, mas exemplo de autoinicialização
  3. Agregamos as saídas individuais da árvore por média (na verdade 2 e 3 significa procedimento de ensacamento mais geral ).

Suponha o primeiro ponto. Nem sempre é possível encontrar a melhor divisão. Por exemplo, no conjunto de dados a seguir, cada divisão fornecerá exatamente um objeto classificado incorretamente. Exemplo do conjunto de dados sem melhor divisão

E acho que exatamente esse ponto pode ser confuso: de fato, o comportamento da divisão individual é de alguma forma semelhante ao comportamento do classificador Naive Bayes: se as variáveis ​​são dependentes - não há melhor divisão para o classificador Decision Trees e Naive Bayes também falha (apenas para lembrar: variáveis ​​independentes é a principal suposição que fazemos no classificador Naive Bayes; todas as outras suposições vêm do modelo probabilístico que escolhemos).

Mas aqui vem a grande vantagem das árvores de decisão: fazemos qualquer divisão e continuamos a dividir ainda mais. E para as seguintes divisões, encontraremos uma separação perfeita (em vermelho). Exemplo do limite de decisão

E como não temos um modelo probabilístico, mas apenas uma divisão binária, não precisamos fazer nenhuma suposição.

Era sobre a Árvore de Decisão, mas também se aplica à Floresta Aleatória. A diferença é que, para a Floresta Aleatória, usamos a Agregação de Bootstrap. Não possui um modelo abaixo, e a única suposição de que se baseia é que a amostragem é representativa . Mas isso geralmente é uma suposição comum. Por exemplo, se uma classe consiste em dois componentes e em nosso conjunto de dados, um componente é representado por 100 amostras e outro componente é representado por 1 amostra - provavelmente a maioria das árvores de decisão individuais verá apenas o primeiro componente e a Random Forest classificará incorretamente o segundo . Exemplo de segundo componente fracamente representado

Espero que isso dê um entendimento maior.

Dmitry Laptev
fonte
10

Em um artigo de 2010, os autores documentaram que modelos florestais aleatórios estimavam de maneira confiável a importância de variáveis ​​quando as variáveis ​​eram multicolineares no espaço estatístico multidimensional. Eu costumo verificar isso antes de executar modelos de floresta aleatórios.

http://www.esajournals.org/doi/abs/10.1890/08-0879.1

Mina
fonte
3
Você acredita que as conclusões de "Quantificando a conectividade de Bufo boreas no Parque Nacional de Yellowstone com a genética da paisagem" em Ecologia são de autoria de autores do Estado do Colorado sobre autores de Berkeley no Machine Learning sobre o tópico de algoritmos de aprendizado de máquina?
Hack-R #
8
Eu não acho que eles estejam em desacordo. Breiman não investigou esse 'caso especial' de multicolinearidade no espaço multidimensional. Além disso, as pessoas no estado do Colorado também podem ser inteligentes - e esses caras são.
Mina