Por que calculamos a média das previsões de floresta aleatória de regressão?

8

Em todos os papéis florestais aleatórios (de regressão) que li, quando chega a hora de reunir as previsões de todas as árvores, tomamos o valor médio como previsão.

Minha pergunta é por que fazemos isso?

Existe uma justificativa estatística para obter a média?

EDIT: Para esclarecer a questão, eu sei que é possível usar outras funções de agregação (usamos o modo de classificação), estou mais interessado em saber se há alguma justificativa teórica por trás da escolha da função média.

Barra
fonte
1
Possivelmente relevante: stats.stackexchange.com/questions/174390/…
Matthew Drury
! digite descrição da imagem aqui Aqui é a referência: Sobre as probabilidades contra rótulos de classe parte sebastianraschka.com/Articles/...
PauAI

Respostas:

5

Eu sempre pensei sobre a média em termos de compensação de desvio e desvio. Se bem me lembro, Leo Breiman sugeriu isso no jornal randomForest com sua afirmação "... são mais robustos em relação ao ruído".

A explicação é a seguinte: basicamente você está pegando um monte de árvores que são cultivadas até o comprimento máximo - sem poda - para que você saiba que cada uma delas será tendenciosa por si mesma. No entanto, a amostragem aleatória que induz cada árvore na floresta deve induzir sub-preconceitos com a mesma freqüência. Portanto, ao fazer uma média, você elimina o viés de cada árvore - o cancelamento de over + under viés. Felizmente, no processo, você também reduz a variação em cada árvore e, portanto, a variação geral também deve ser reduzida.

Conforme indicado pelas outras respostas à postagem, esse pode não ser o único motivo para calcular a média.

Lucas Roberts
fonte
1
Aceitando isso, como a resposta parece que a média é escolhida por "intuição", e não por uma motivação teórica específica, contrastando com a resposta motivada teoricamente nos GLMs
Barra
1
@ Bar, com árvores de decisão, o problema é realmente que a otimização global é difícil para o NP, então a otimização gulosa é feita. A otimização gananciosa de cada árvore não nos fala sobre a floresta. Infelizmente, a matemática para esse problema é menos desenvolvida do que qualquer um de nós gostaria.
Lucas Roberts
5

Ao usar a média, você está dizendo duas coisas:

  1. Os outliers não são um grande problema (caso contrário, você usaria a mediana ou, pelo menos, filtraria alguns outliers antes de fazer a média)
  2. Toda previsão tem o mesmo peso (caso contrário, você levaria em consideração os pesos)

Você não deve esperar que haja discrepâncias enormes, pois você pode fazer com que o tamanho da amostra seja grande o suficiente para que elas importem menos na média e que você esperaria um mínimo de estabilidade a partir das previsões das árvores individuais.

Não há razão para pensar que algumas árvores devam ter mais peso preditivo que outras, nem uma maneira de determinar tais pesos.

Você realmente não pode usar o modo, pois as previsões estão em uma escala contínua. Por exemplo, se você tivesse as previsões 80 80 100 101 99 98 97 102 103 104 96, o modo seria previsto como 80. Isso não pode ser o que você deseja. Se todos os valores tiverem decimais distintos, o modo não saberia como decidir.

Existem outras médias além da média aritmética, como a média geométrica e a média harmônica. Eles são projetados para diminuir a média se houver alguns valores baixos na série de dados. Isso não é o que você quer aqui também.

David Ernst
fonte
1
Se os valores discrepantes são uma preocupação, existem alternativas entre a mediana e a média da amostra, como médias com ou sem corte, que podem dar uma boa proteção discrepante e, ao mesmo tempo, serem mais eficientes que a mediana.
precisa saber é o seguinte
3

Obviamente, você pode usar qualquer função de agregação que seja útil em sua situação específica. A mediana é uma boa maneira de tornar uma amostra pequena robusta contra valores discrepantes. Em florestas de regressão, geralmente você pode influenciar o tamanho da amostra para evitar problemas com tamanhos pequenos. Portanto, a média parece sensata em uma fração muito grande de casos de uso.

Bernhard
fonte
1

Também não seria possível usar a mediana, o modo ou alguma outra função agregada?

A classificação Random Forest ( ou seja, não estimativa de probabilidade) é baseada no modo das previsões (votação majoritária); portanto, você pode agregar os resultados conforme desejar.

Firebug
fonte
Obrigado pela resposta, adicionei um esclarecimento à minha pergunta. Eu sei que é possível usar outras funções de agregação, o que eu quero saber é se existe alguma razão teórica para a escolha da média.
Bar
1

Primeiras coisas primeiro. Como muitas outras pessoas disseram, você pode usar outras métricas, mas a média é a opção "padrão".

Como opção padrão, seria possível definir uma função que funciona sob algumas condições moderadas

Agora, se você pensar bem, uma floresta aleatória é uma coleção de árvores e cada uma dessas árvores tem o objetivo de estimar sua variável de resposta numérica.

Além disso, como @David Ernst menciona corretamente:

Não há razão para pensar que algumas árvores devam ter pesos mais preditivos que outras, nem uma maneira de determinar esses pesos.

Além disso, não há razão para pensar que essas árvores terão diferentes desvios padrão. Mais uma vez, em condições amenas!

Dito isto, a média deve funcionar por causa da lei fraca de grandes números

Vasilis Vasileiou
fonte
-1

Em conjunto. A média é priorizar mais a confiança do que a maioria.

Exemplo você tem 3 árvores,

2 deles votam A com 22% de confiança e 1 votaram B com 90% de confiança.

Se usarmos a maioria, obtemos voto A. Média de 22, N, N Se usamos confiança, obtemos voto B. Média de 90, N, N

Faria sentido ir com 90% de confiança, já que é mais seguro do que a maioria dos outros com apenas 22% de confiança.

PauAI
fonte
Não está muito claro para mim qual é o seu ponto. Você pode editar para esclarecer isso talvez? O que aconteceria se houvesse 100 A e apenas um B com o mesmo conjunto de classificações de confiança?
Mdewey