Acho que no artigo original eles sugerem o uso do ), mas de qualquer forma a idéia é a seguinte:registro2( N+ 1
O número de características selecionadas aleatoriamente pode influenciar o erro de generalização de duas maneiras: a seleção de muitas características aumenta a força das árvores individuais, enquanto a redução do número de características leva a uma correlação mais baixa entre as árvores, aumentando a força da floresta como um todo.
O interessante é que os autores de Random Forests (pdf) encontram uma diferença empírica entre classificação e regressão:
Uma diferença interessante entre regressão e classificação é que a correlação aumenta muito lentamente à medida que o número de recursos utilizados aumenta.
N/ 3N--√
N--√registroN
O intervalo intermediário é geralmente grande. Nesse intervalo, à medida que o número de recursos aumenta, a correlação aumenta, mas o PE * (árvore) compensa diminuindo.
(PE * sendo o erro de generalização)
Como se costuma dizer em Elements of Statistical Learning:
Na prática, os melhores valores para esses parâmetros dependerão do problema e devem ser tratados como parâmetros de ajuste.
Uma coisa em que seu problema pode depender é o número de variáveis categóricas. Se você tiver muitas variáveis categóricas codificadas como variáveis dummy, geralmente faz sentido aumentar o parâmetro. Mais uma vez, no artigo Random Forests:
i n t ( l o g2M+ 1 )