Estou tentando testar a capacidade da floresta aleatória de classificar amostras entre 2 grupos; Existem 54 amostras e números variáveis de variáveis usadas para classificação.
Fiquei me perguntando por que as estimativas out-of-bag (OOB) podem variar até 5% umas das outras, mesmo quando estou usando 50 mil árvores? Isso é algo que o bootstrapping poderia ajudar?
machine-learning
random-forest
Sethzard
fonte
fonte
Respostas:
Existem duas fontes da variação OOB. Um é a aleatoriedade do próprio procedimento; isso pode ser reduzido aumentando o número de árvores.
A outra fonte de variação é a imperfeição irredutível de ter dados limitados e viver em um mundo complexo. Aumentar o número de árvores não pode consertar isso.
Além disso, às vezes simplesmente não há dados suficientes para resolver o problema. Por exemplo, imagine duas instâncias com rótulos opostos, mas valores de recurso idênticos. Uma dessas amostras sempre será classificada incorretamente. (Este é um exemplo extremo, mas ilustra como alguns problemas não podem ser corrigidos. Podemos relaxar um pouco ao considerar uma pequena perturbação em um vetor; agora ele geralmente será classificado da mesma forma que seu gêmeo, mas nem sempre.) Para resolver esse problema , você precisará coletar medidas adicionais para distinguir melhor os dois pontos.
Aumentar o número de árvores pode reduzir a variação da estimativa de algo como . Considere os resultados do teorema do limite central: aumentar o tamanho da amostra pode reduzir a variação de uma estatística como uma média, mas não eliminá-la. As previsões aleatórias da floresta são uma média de todas as previsões das árvores, e essas próprias previsões são variáveis aleatórias (por causa do bootstrapping e do subconjunto aleatório de recursos; ambos acontecem independentemente, portanto os votos também são iid). O CLT estabelece que aproxima de uma distribuição normal , onde é a previsão média verdadeira ep ( y= 1 | x ) x¯ x¯ x¯∼ N( μ , σ2n) μ σ2 é a variação dos votos das árvores. (Os votos assumem valores de 0 ou 1, portanto, uma média dos votos tem variação finita.) O ponto é que dobrar o número de árvores reduzirá a variação de pela metade, mas não a levará a zero. x¯ (Exceto quando , mas sabemos que não é o caso aqui.)σ2= 0
A variação irredutível não pode ser corrigida pelo bootstrap. Além disso, florestas aleatórias já são inicializadas; isso faz parte do motivo de ter "aleatório" em seu nome. (A outra razão é que um subconjunto aleatório de recursos é selecionado em cada divisão.)
fonte