Por que uma árvore em saco / árvore aleatória da floresta tem um viés mais alto do que uma única árvore de decisão?

11

Se considerarmos uma árvore de decisão adulta (ou seja, uma árvore de decisão não podada), ela tem alta variação e baixo viés.

Ensacamentos e florestas aleatórias usam esses modelos de alta variação e os agregam para reduzir a variação e, assim, aprimorar a precisão da previsão. Ambas as Florestas Ensacadas e Aleatórias usam amostragem Bootstrap e, conforme descrito em "Elementos de Aprendizagem Estatística", isso aumenta o viés na árvore única.

Além disso, como o método Random Forest limita a divisão de variáveis ​​permitidas em cada nó, o viés para uma única árvore de floresta aleatória aumenta ainda mais.

Assim, a precisão da previsão é aumentada apenas se o aumento do viés das árvores isoladas em Ensacamentos e Florestas Aleatórias não estiver "ofuscando" a redução da variação.

Isso me leva às duas perguntas a seguir: 1) Eu sei que, com a amostragem de bootstrap, (quase sempre) teremos algumas das mesmas observações na amostra de bootstrap. Mas por que isso leva a um aumento no viés das árvores individuais em Florestas Ensacadas / Aleatórias? 2) Além disso, por que o limite de variáveis ​​disponíveis para divisão em cada divisão leva a um viés mais alto nas árvores individuais das florestas aleatórias?

C. Refsgaard
fonte

Respostas:

5

Aceitarei a resposta em 1) de Kunlun, mas apenas para encerrar este caso, darei aqui as conclusões sobre as duas perguntas que cheguei em minha tese (que foram aceitas pelo meu supervisor):

1) Mais dados produzem modelos melhores e, como usamos apenas parte de todos os dados de treinamento para treinar o modelo (autoinicialização), ocorre um viés mais alto em cada árvore (copie da resposta de Kunlun)

2) No algoritmo Random Forests, limitamos o número de variáveis ​​a serem divididas em cada divisão - ou seja, limitamos o número de variáveis ​​para explicar nossos dados. Novamente, um viés mais alto ocorre em cada árvore.

Conclusão: Ambas as situações limitam nossa capacidade de explicar a população: primeiro limitamos o número de observações, depois limitamos o número de variáveis ​​para dividir em cada divisão. Ambas as limitações levam a um viés mais alto em cada árvore, mas muitas vezes a redução de variação no modelo supera o aumento do viés em cada árvore e, assim, Florestas Ensacadas e Aleatórias tendem a produzir um modelo melhor do que apenas uma única árvore de decisão.

C. Refsgaard
fonte
-1

Suas perguntas são bem diretas. 1) Mais dados produzem um modelo melhor, já que você usa apenas parte de todos os dados de treinamento para treinar seu modelo (inicialização), um viés mais alto é razoável. 2) Mais divisões significa árvores mais profundas ou nós mais puros. Isso normalmente leva a alta variação e baixo viés. Se você limitar a divisão, menor variação e maior viés.

Kunlun
fonte
4
Não compreendo bem o argumento para 1), já que cada amostra de bootstrap é igualmente provável e o viés é sobre o comportamento do modelo médio. Parece que deve ser mais sutil do que isso. Eu também não acho que 2) aborda a pergunta. O pôster não significa "divisão de limites", como em "crescer árvores rasas".
Matthew Drury