Atualmente, estou usando a caixa de ferramentas RF no MATLAB para uma classificação binária
Conjunto de dados: 50000 amostras e mais de 250 recursos
Então, qual deve ser o número de árvores e o recurso selecionado aleatoriamente em cada divisão para cultivar as árvores? outro parâmetro pode afetar muito os resultados?
Número de árvores, quanto maior, melhor. Você quase não pode ultrapassar esse parâmetro, mas é claro que o limite superior depende do tempo computacional que você deseja gastar em RF.
A boa idéia é fazer uma floresta longa primeiro e depois ver (espero que esteja disponível na implementação do MATLAB) quando a precisão do OOB convergir.
Número de atributos tentados, o padrão é raiz quadrada de todo o número de atributos, mas geralmente a floresta não é muito sensível ao valor desse parâmetro - na verdade, raramente é otimizado, principalmente porque o aspecto estocástico da RF pode apresentar variações maiores.
fonte
Número de árvores, quanto maior, melhor: concordou.
O número de atributos tentados dependerá. Se você já tem algum a priori sobre como a informação está se espalhando ou não entre os recursos. Se as informações forem compartilhadas por muitos recursos, melhores resultados resultariam em um valor menor desse parâmetro. Enquanto, por outro lado, se apenas alguns recursos carregam as informações, você deve usar valores maiores. Em outras palavras, com muitas variáveis relevantes: valores menores são melhores e com muitas variáveis irrelevantes: valores maiores são melhores.
fonte