As florestas aleatórias exibem viés de previsão?

12

Penso que esta é uma pergunta direta, embora o raciocínio por trás do porquê ou por que não possa não ser. O motivo pelo qual pergunto é que recentemente escrevi minha própria implementação de uma RF e, embora ela tenha um bom desempenho, ela não está funcionando tão bem quanto eu esperava (com base no conjunto de dados da competição Kaggle Photo Quality Prediction , nas pontuações vencedoras e em alguns as informações subsequentes disponíveis sobre quais técnicas foram usadas).

A primeira coisa que faço nessas circunstâncias é o erro de previsão de plotagem para o meu modelo; portanto, para cada valor de previsão determinado, eu determino o viés médio (ou desvio) do valor-alvo correto. Para o meu RF, recebi este enredo:

Valor da previsão versus viés do valor alvo correto

Eu estou querendo saber se este é um padrão de viés comumente observado para RF (caso contrário, talvez possa ser algo específico para o conjunto de dados e / ou minha implementação). É claro que posso usar esse gráfico para melhorar as previsões usando-o para compensar o viés, mas estou me perguntando se há um erro ou falha mais fundamental no próprio modelo de RF que precisa ser resolvido. Obrigado.

== ADENDO ==

Minha investigação inicial está nesta entrada do blog Random Forest Bias - Atualização

redcalx
fonte
2
Pode ser um recurso dos seus dados; você tentou executar outra implementação de RF no mesmo conjunto de dados para ver se ele reproduz esse efeito?

Respostas:

4

(Estou longe de ser especialista. Estas são apenas reflexões de um estatístico júnior que lidou com questões diferentes, mas vagamente análogas. Minha resposta pode estar fora de contexto.)

Dada uma nova amostra a ser prevista, e um oráculo que tem acesso a um conjunto de treinamento muito maior, talvez a previsão "melhor" e mais honesta seja dizer "Eu prevejo com 60% de probabilidade que isso pertença à classe Vermelha, em vez de a classe azul ".

Vou dar um exemplo mais concreto. Imagine que, em nosso conjunto de treinamento muito grande, exista um grande conjunto de amostras muito semelhantes à nossa nova amostra. Destes, 60% são azuis e 40% são vermelhos. E parece não haver nada para distinguir os azuis do vermelho. Nesse caso, é óbvio que 60% / 40% é a única previsão que uma pessoa sã pode fazer.

É claro que não temos um oráculo assim, ao contrário, temos muitas árvores. Árvores de decisão simples são incapazes de fazer essas previsões de 60% / 40% e, portanto, cada árvore fará uma previsão discreta (vermelho ou azul, nada no meio). Como esta nova amostra cai no lado vermelho da superfície de decisão, você verá que quase todas as árvores preveem vermelho em vez de azul. Cada árvore finge ter mais certeza do que é e inicia uma debandada em direção a uma previsão tendenciosa.

O problema é que tendemos a interpretar mal a decisão de uma única árvore. Quando uma única árvore coloca um nó na classe Red, devemos não interpretar isso como uma previsão de 100% / 0% a partir da árvore. (Não estou apenas dizendo que "sabemos" que provavelmente é uma previsão ruim. Estou dizendo algo mais forte, ou seja, que devemos ter cuidado ao interpretar como sendo a previsão da árvore). Não posso concisamente expandir sobre como corrigir isso. Mas é possível pegar emprestadas idéias de áreas de estatísticas sobre como construir divisões mais "imprecisas" dentro de uma árvore para incentivar uma única árvore a ser mais honesta em relação à sua incerteza. Então, deve ser possível fazer uma média significativa das previsões de uma floresta de árvores.

Espero que isso ajude um pouco. Caso contrário, espero aprender com as respostas.

Aaron McDaid
fonte
Fuzzy divide, entendeu, no espírito de extrema RF (mas possivelmente não tão extremo?). Vou tentar isso, pois sua explicação faz sentido para mim. Obrigado.
redcalx
[Floresta aleatória - Pensamentos sobre o problema do viés] ( the-locster.livejournal.com/134241.html ) "A chave então (eu acho) é usar uma randomização não uniforme [do limiar de divisão] de modo que o conjunto de todos os pontos de divisão quando combinados recriarão y = f (x) e se aproximarão de uma representação perfeita de y = f (x), pois o número de DTs no RF tende ao infinito ".
Redcalx #
As previsões de 60/40% não seriam tratadas por uma árvore de regressão? A confiança seria a proporção da classe na partição de uma folha (para o conjunto de treinamento). Talvez isso possa / foi expandido para lidar com poder estatístico demasiado
Alter
3

Sim. A maioria das árvores tem um viés nas caudas. Vejo:

Como as divisões da árvore de decisão devem ser implementadas ao prever variáveis ​​contínuas?

"Um problema em potencial com as árvores é que elas tendem a se encaixar mal nas caudas. Pense em um nó terminal que captura a faixa baixa do conjunto de treinamento. Ele preverá o uso da média desses pontos de ajuste de treinamento, que sempre subestimarão o resultado (já que é a média). "

topepo
fonte
Eu não acho que o comentário se aplica às florestas aleatórias
Zach
Acredito que a implementação de referência de florestas aleatórias pare com ~ 5 observações nos nós quando a variável de resposta for contínua. Isso ainda introduziria uma pequena quantidade de viés se a variável de divisão também fosse contínua. Semelhante a isso LOESS muitas vezes parece melhor do que um centrado média móvel nas bordas do apoio ...
Shea Parkes