Penso que esta é uma pergunta direta, embora o raciocínio por trás do porquê ou por que não possa não ser. O motivo pelo qual pergunto é que recentemente escrevi minha própria implementação de uma RF e, embora ela tenha um bom desempenho, ela não está funcionando tão bem quanto eu esperava (com base no conjunto de dados da competição Kaggle Photo Quality Prediction , nas pontuações vencedoras e em alguns as informações subsequentes disponíveis sobre quais técnicas foram usadas).
A primeira coisa que faço nessas circunstâncias é o erro de previsão de plotagem para o meu modelo; portanto, para cada valor de previsão determinado, eu determino o viés médio (ou desvio) do valor-alvo correto. Para o meu RF, recebi este enredo:
Eu estou querendo saber se este é um padrão de viés comumente observado para RF (caso contrário, talvez possa ser algo específico para o conjunto de dados e / ou minha implementação). É claro que posso usar esse gráfico para melhorar as previsões usando-o para compensar o viés, mas estou me perguntando se há um erro ou falha mais fundamental no próprio modelo de RF que precisa ser resolvido. Obrigado.
== ADENDO ==
Minha investigação inicial está nesta entrada do blog Random Forest Bias - Atualização
fonte
Respostas:
(Estou longe de ser especialista. Estas são apenas reflexões de um estatístico júnior que lidou com questões diferentes, mas vagamente análogas. Minha resposta pode estar fora de contexto.)
Dada uma nova amostra a ser prevista, e um oráculo que tem acesso a um conjunto de treinamento muito maior, talvez a previsão "melhor" e mais honesta seja dizer "Eu prevejo com 60% de probabilidade que isso pertença à classe Vermelha, em vez de a classe azul ".
Vou dar um exemplo mais concreto. Imagine que, em nosso conjunto de treinamento muito grande, exista um grande conjunto de amostras muito semelhantes à nossa nova amostra. Destes, 60% são azuis e 40% são vermelhos. E parece não haver nada para distinguir os azuis do vermelho. Nesse caso, é óbvio que 60% / 40% é a única previsão que uma pessoa sã pode fazer.
É claro que não temos um oráculo assim, ao contrário, temos muitas árvores. Árvores de decisão simples são incapazes de fazer essas previsões de 60% / 40% e, portanto, cada árvore fará uma previsão discreta (vermelho ou azul, nada no meio). Como esta nova amostra cai no lado vermelho da superfície de decisão, você verá que quase todas as árvores preveem vermelho em vez de azul. Cada árvore finge ter mais certeza do que é e inicia uma debandada em direção a uma previsão tendenciosa.
O problema é que tendemos a interpretar mal a decisão de uma única árvore. Quando uma única árvore coloca um nó na classe Red, devemos não interpretar isso como uma previsão de 100% / 0% a partir da árvore. (Não estou apenas dizendo que "sabemos" que provavelmente é uma previsão ruim. Estou dizendo algo mais forte, ou seja, que devemos ter cuidado ao interpretar como sendo a previsão da árvore). Não posso concisamente expandir sobre como corrigir isso. Mas é possível pegar emprestadas idéias de áreas de estatísticas sobre como construir divisões mais "imprecisas" dentro de uma árvore para incentivar uma única árvore a ser mais honesta em relação à sua incerteza. Então, deve ser possível fazer uma média significativa das previsões de uma floresta de árvores.
Espero que isso ajude um pouco. Caso contrário, espero aprender com as respostas.
fonte
Sim. A maioria das árvores tem um viés nas caudas. Vejo:
Como as divisões da árvore de decisão devem ser implementadas ao prever variáveis contínuas?
"Um problema em potencial com as árvores é que elas tendem a se encaixar mal nas caudas. Pense em um nó terminal que captura a faixa baixa do conjunto de treinamento. Ele preverá o uso da média desses pontos de ajuste de treinamento, que sempre subestimarão o resultado (já que é a média). "
fonte