O meu entendimento é os picaretas florestais aleatórios aleatoriamente mtry variáveis para construir cada árvore de decisão. Portanto, se mtry = ncol / 3, então cada variável será usada em média em 1/3 das árvores. E 2/3 das árvores não as usarão.
Mas e se eu souber que uma única variável é provavelmente muito importante, seria bom aumentar manualmente a probabilidade de essa variável ser selecionada em cada árvore? É possível com o pacote randomForest no R?
fonte
Desde junho de 2015, um novo algoritmo de RF promissor no R-CRAN chamado 'ranger' possui esse recurso. É ajustado com, split.select.weights : "Vetor numérico com pesos entre 0 e 1, representando a probabilidade de selecionar variáveis para divisão."
fonte