Por que meus resultados aleatórios da floresta são tão variáveis?

10

Estou tentando testar a capacidade da floresta aleatória de classificar amostras entre 2 grupos; Existem 54 amostras e números variáveis ​​de variáveis ​​usadas para classificação.

Fiquei me perguntando por que as estimativas out-of-bag (OOB) podem variar até 5% umas das outras, mesmo quando estou usando 50 mil árvores? Isso é algo que o bootstrapping poderia ajudar?

Sethzard
fonte
6
Você tem que poucas amostras. Árvores de 50k não fazem sentido com tão poucas amostras. A variação provavelmente é apenas uma amostra incorretamente classificada entre as execuções.
EStE
@ThhiS Eu pensei que aumentar o número de árvores reduziria a quantidade de variação que eu recebo. Existe uma maneira de reduzi-lo a zero ou saber qual é o mais preciso?
Sethzard 22/03

Respostas:

12

Existem duas fontes da variação OOB. Um é a aleatoriedade do próprio procedimento; isso pode ser reduzido aumentando o número de árvores.

A outra fonte de variação é a imperfeição irredutível de ter dados limitados e viver em um mundo complexo. Aumentar o número de árvores não pode consertar isso.

Além disso, às vezes simplesmente não há dados suficientes para resolver o problema. Por exemplo, imagine duas instâncias com rótulos opostos, mas valores de recurso idênticos. Uma dessas amostras sempre será classificada incorretamente. (Este é um exemplo extremo, mas ilustra como alguns problemas não podem ser corrigidos. Podemos relaxar um pouco ao considerar uma pequena perturbação em um vetor; agora ele geralmente será classificado da mesma forma que seu gêmeo, mas nem sempre.) Para resolver esse problema , você precisará coletar medidas adicionais para distinguir melhor os dois pontos.

Aumentar o número de árvores pode reduzir a variação da estimativa de algo como . Considere os resultados do teorema do limite central: aumentar o tamanho da amostra pode reduzir a variação de uma estatística como uma média, mas não eliminá-la. As previsões aleatórias da floresta são uma média de todas as previsões das árvores, e essas próprias previsões são variáveis ​​aleatórias (por causa do bootstrapping e do subconjunto aleatório de recursos; ambos acontecem independentemente, portanto os votos também são iid). O CLT estabelece que aproxima de uma distribuição normal , onde é a previsão média verdadeira ep(y=1 1|x)x¯x¯x¯N(μ,σ2n)μσ2é a variação dos votos das árvores. (Os votos assumem valores de 0 ou 1, portanto, uma média dos votos tem variação finita.) O ponto é que dobrar o número de árvores reduzirá a variação de pela metade, mas não a levará a zero. x¯(Exceto quando , mas sabemos que não é o caso aqui.)σ2=0 0

A variação irredutível não pode ser corrigida pelo bootstrap. Além disso, florestas aleatórias já são inicializadas; isso faz parte do motivo de ter "aleatório" em seu nome. (A outra razão é que um subconjunto aleatório de recursos é selecionado em cada divisão.)

Sycorax diz restabelecer Monica
fonte