Quais devem ser os parâmetros ideais para o classificador Random Forest?

14

Atualmente, estou usando a caixa de ferramentas RF no MATLAB para uma classificação binária

Conjunto de dados: 50000 amostras e mais de 250 recursos

Então, qual deve ser o número de árvores e o recurso selecionado aleatoriamente em cada divisão para cultivar as árvores? outro parâmetro pode afetar muito os resultados?

Rizwan
fonte

Respostas:

8

Escolha um grande número de árvores, digamos 100. Pelo que li na Internet, escolha 250recursos selecionados aleatoriamente. No entanto, no artigo original , Breiman usou o número inteiro mais próximo deregistroMregistro2.

Eu diria que a validação cruzada é geralmente a chave para encontrar parâmetros ideais, mas não sei o suficiente sobre florestas aleatórias.

Wok
fonte
Breiman usado 1+registro2Mcaracterísticas. Estou deixando um comentário aqui, porque o seu link não funcionar :)
Antoine
Obrigado, eu atualizei o link. Agora, é direto para Berkeley.
Wok
12

Número de árvores, quanto maior, melhor. Você quase não pode ultrapassar esse parâmetro, mas é claro que o limite superior depende do tempo computacional que você deseja gastar em RF.
A boa idéia é fazer uma floresta longa primeiro e depois ver (espero que esteja disponível na implementação do MATLAB) quando a precisão do OOB convergir.

Número de atributos tentados, o padrão é raiz quadrada de todo o número de atributos, mas geralmente a floresta não é muito sensível ao valor desse parâmetro - na verdade, raramente é otimizado, principalmente porque o aspecto estocástico da RF pode apresentar variações maiores.


fonte
7

Número de árvores, quanto maior, melhor: concordou.

O número de atributos tentados dependerá. Se você já tem algum a priori sobre como a informação está se espalhando ou não entre os recursos. Se as informações forem compartilhadas por muitos recursos, melhores resultados resultariam em um valor menor desse parâmetro. Enquanto, por outro lado, se apenas alguns recursos carregam as informações, você deve usar valores maiores. Em outras palavras, com muitas variáveis ​​relevantes: valores menores são melhores e com muitas variáveis ​​irrelevantes: valores maiores são melhores.

0asa
fonte
1
Embora sua alegação sobre o número de atributos experimentados faça sentido, você tem uma citação para isso?
James Owers
Eu recomendaria a leitura desta tese: github.com/glouppe/phd-thesis , bem como esta: orbi.ulg.ac.be/handle/2268/25737
0asa