Quantos recursos para amostra usando florestas aleatórias

13

A página da Wikipedia que cita "Os elementos do aprendizado estatístico" diz:

Normalmente, para um problema de classificação com os recursos , os recursos são usados ​​em cada divisão.pp

Entendo que esse é um palpite bastante bom e provavelmente foi confirmado por evidências empíricas, mas existem outras razões pelas quais alguém escolheria a raiz quadrada? Existe um fenômeno estatístico acontecendo lá?

De alguma forma, isso ajuda a diminuir a variação dos erros?

É o mesmo para regressão e classificação?

Valentin Calomme
fonte

Respostas:

16

Acho que no artigo original eles sugerem o uso do ), mas de qualquer forma a idéia é a seguinte:registro2(N+1

O número de características selecionadas aleatoriamente pode influenciar o erro de generalização de duas maneiras: a seleção de muitas características aumenta a força das árvores individuais, enquanto a redução do número de características leva a uma correlação mais baixa entre as árvores, aumentando a força da floresta como um todo.

O interessante é que os autores de Random Forests (pdf) encontram uma diferença empírica entre classificação e regressão:

Uma diferença interessante entre regressão e classificação é que a correlação aumenta muito lentamente à medida que o número de recursos utilizados aumenta.

N/3N

NregistroN

O intervalo intermediário é geralmente grande. Nesse intervalo, à medida que o número de recursos aumenta, a correlação aumenta, mas o PE * (árvore) compensa diminuindo.

(PE * sendo o erro de generalização)

Como se costuma dizer em Elements of Statistical Learning:

Na prática, os melhores valores para esses parâmetros dependerão do problema e devem ser tratados como parâmetros de ajuste.

Uma coisa em que seu problema pode depender é o número de variáveis ​​categóricas. Se você tiver muitas variáveis ​​categóricas codificadas como variáveis ​​dummy, geralmente faz sentido aumentar o parâmetro. Mais uma vez, no artigo Random Forests:

Eunt(euog2M+1)

oW_
fonte
Obrigado, essa é uma resposta muito útil. Na verdade, eu estava pensando que havia algo a ver com a força de cada árvore versus a força da floresta como um todo. E, de fato, muito interessante que exista essa diferença entre regressão e classificação. Muito obrigado por vincular o artigo original. Estive tentando coletar esses papéis para muitas técnicas.
Valentin Calomme 10/10