Em todos os papéis florestais aleatórios (de regressão) que li, quando chega a hora de reunir as previsões de todas as árvores, tomamos o valor médio como previsão.
Minha pergunta é por que fazemos isso?
Existe uma justificativa estatística para obter a média?
EDIT: Para esclarecer a questão, eu sei que é possível usar outras funções de agregação (usamos o modo de classificação), estou mais interessado em saber se há alguma justificativa teórica por trás da escolha da função média.
regression
random-forest
ensemble
Barra
fonte
fonte
Respostas:
Eu sempre pensei sobre a média em termos de compensação de desvio e desvio. Se bem me lembro, Leo Breiman sugeriu isso no jornal randomForest com sua afirmação "... são mais robustos em relação ao ruído".
A explicação é a seguinte: basicamente você está pegando um monte de árvores que são cultivadas até o comprimento máximo - sem poda - para que você saiba que cada uma delas será tendenciosa por si mesma. No entanto, a amostragem aleatória que induz cada árvore na floresta deve induzir sub-preconceitos com a mesma freqüência. Portanto, ao fazer uma média, você elimina o viés de cada árvore - o cancelamento de over + under viés. Felizmente, no processo, você também reduz a variação em cada árvore e, portanto, a variação geral também deve ser reduzida.
Conforme indicado pelas outras respostas à postagem, esse pode não ser o único motivo para calcular a média.
fonte
Ao usar a média, você está dizendo duas coisas:
Você não deve esperar que haja discrepâncias enormes, pois você pode fazer com que o tamanho da amostra seja grande o suficiente para que elas importem menos na média e que você esperaria um mínimo de estabilidade a partir das previsões das árvores individuais.
Não há razão para pensar que algumas árvores devam ter mais peso preditivo que outras, nem uma maneira de determinar tais pesos.
Você realmente não pode usar o modo, pois as previsões estão em uma escala contínua. Por exemplo, se você tivesse as previsões 80 80 100 101 99 98 97 102 103 104 96, o modo seria previsto como 80. Isso não pode ser o que você deseja. Se todos os valores tiverem decimais distintos, o modo não saberia como decidir.
Existem outras médias além da média aritmética, como a média geométrica e a média harmônica. Eles são projetados para diminuir a média se houver alguns valores baixos na série de dados. Isso não é o que você quer aqui também.
fonte
Obviamente, você pode usar qualquer função de agregação que seja útil em sua situação específica. A mediana é uma boa maneira de tornar uma amostra pequena robusta contra valores discrepantes. Em florestas de regressão, geralmente você pode influenciar o tamanho da amostra para evitar problemas com tamanhos pequenos. Portanto, a média parece sensata em uma fração muito grande de casos de uso.
fonte
A classificação Random Forest ( ou seja, não estimativa de probabilidade) é baseada no modo das previsões (votação majoritária); portanto, você pode agregar os resultados conforme desejar.
fonte
Primeiras coisas primeiro. Como muitas outras pessoas disseram, você pode usar outras métricas, mas a média é a opção "padrão".
Como opção padrão, seria possível definir uma função que funciona sob algumas condições moderadas
Agora, se você pensar bem, uma floresta aleatória é uma coleção de árvores e cada uma dessas árvores tem o objetivo de estimar sua variável de resposta numérica.
Além disso, como @David Ernst menciona corretamente:
Além disso, não há razão para pensar que essas árvores terão diferentes desvios padrão. Mais uma vez, em condições amenas!
Dito isto, a média deve funcionar por causa da lei fraca de grandes números
fonte
Em conjunto. A média é priorizar mais a confiança do que a maioria.
Exemplo você tem 3 árvores,
2 deles votam A com 22% de confiança e 1 votaram B com 90% de confiança.
Se usarmos a maioria, obtemos voto A. Média de 22, N, N Se usamos confiança, obtemos voto B. Média de 90, N, N
Faria sentido ir com 90% de confiança, já que é mais seguro do que a maioria dos outros com apenas 22% de confiança.
fonte