Estou jogando com um randomForest e descobri que geralmente aumentar o sampSize leva a um melhor desempenho. Existe uma regra / fórmula / etc que sugere qual deve ser o sampSize ideal ou é uma tentativa e erro? Eu acho que outra maneira de expressar isso; Quais são os meus riscos de um tamanho menor ou muito grande (ajuste excessivo?)?
Esta pergunta está se referindo à implementação R da floresta aleatória no randomForest
pacote. A função randomForest
possui um parâmetro sampSize
descrito na documentação como
Tamanho (s) da amostra a desenhar. Para classificação, se o tamanho da amostra for um vetor do comprimento do número de estratos, a amostragem será estratificada por estratos, e os elementos do tamanho da amostra indicarão os números a serem extraídos dos estratos.
fonte