Como alguém poderia provar formalmente que o erro OOB em floresta aleatória é imparcial?

8

Eu li essa afirmação muitas vezes, mas nunca me deparei com uma prova. Eu gostaria de tentar produzir um, mas não tenho certeza de qual notação usar. Alguém pode me ajudar com isso?

JEquihua
fonte
1
OOB não é isento de viés. O único componente - frequentemente: o mais importante - do viés removido pelo OOB é o "otimismo" de que um ajuste na amostra sofre. Por exemplo, OOB é pessimisticamente tendencioso, pois se baseia nas previsões médias de apenas das árvores da floresta. EDIT: como indicado na resposta por @cbeleites abaixo. 36,8%
30518 Jim

Respostas:

4

Não sei se essa é a resposta final, mas essas coisas não cabem em um comentário.

A declaração de que os erros de OOB são imparciais é frequentemente usada, mas nunca vi uma demonstração. Depois de muitas pesquisas, finalmente dei depois de ler atentamente a página bem conhecida da seção Breiman para RF : A estimativa de erro fora da bolsa (oob) . Caso você não tenha notado (como perdi por algum tempo), a última proposição é a mais importante: isso provou ser imparcial em muitos testes . Portanto, nenhum sinal de derivação formal.

Mais do que isso, parece estar provado que, para o caso de mais variáveis ​​do que instâncias, esse estimador é tendencioso. Veja aqui .

Para erro dentro da bolsa, há uma derivação formal. O erro dentro da bolsa é o erro de inicialização e há muita literatura começando com "Uma Introdução ao Bootsrap, de Efron e Tibshirani". No entanto, a demonstração mais limpa que vi está aqui .

Se você deseja começar a encontrar uma prova, acho que um bom ponto de partida é a comparação dessa estimativa com a validação cruzada N-fold. Em ESTL, afirma-se que há uma identidade no limite, pois o número de amostras vai para o infinito.

rapaio
fonte
1
np
3

Por que você espera que o erro oob seja imparcial?

  • Há (pelo menos) um caso de treinamento menos disponível para as árvores usadas na floresta substituta em comparação com a floresta "original". Eu esperaria que isso levasse a um pequeno viés pessimista aproximadamente comparável à validação cruzada de uma única exclusão.

  • 1e13

Ambos os pensamentos estão intimamente relacionados à curva de aprendizado do classificador e aplicação / dados em questão: o primeiro ao desempenho médio em função do tamanho da amostra de treinamento e o segundo à variação em torno dessa curva média.

1e13n-1

Observe também que Breiman usa "imparcial" para fora do bootstrap da mesma maneira que ele usa para validação cruzada, onde também temos um (pequeno) viés pessimista. Vindo de um campo experimental, posso dizer que ambos são praticamente imparciais, pois o viés geralmente é muito menos problemático do que a variação (você provavelmente não está usando florestas aleatórias se tiver o luxo de ter muitos casos) .

cbeleites descontentes com o SX
fonte
3
Eu não esperava que fosse. É mencionado por pessoas em muitos lugares, então eu apenas aceitei. Agora que tenho pensado nisso, é por isso que quero provar. Gosto da sua resposta, deixe-me brincar um pouco com suas informações para ver o que posso concluir.
JEquihua
@JEquihua: Eu certamente estaria interessado no resultado.
cbeleites infeliz com SX
1
A floresta oob é cerca de 1/3 da original, não 2/3 (mais uma razão para o erro oob ser pessimista!). A probabilidade de escolher uma dada árvore T para a floresta oob de uma dada observação (x, y) é a probabilidade de (x, y) não estar em T, ou seja ((N-1) / N) ^ N = ( 1 + (-1) / N) ^ N -> exp (-1) = ~ 1/3. Portanto, o tamanho esperado da floresta oob para (x, y) é de cerca de B / 3, se B é o tamanho da floresta original.
Memeplex 28/05
@memeplex: é claro - obrigado por detectar. Corrigido.
cbeleites descontente com SX