Função do parâmetro n.minobsinnode do GBM em R [fechado]

21

Eu queria saber o que o parâmetro n.minobsinnode significa no pacote GBM. Eu li o manual, mas não está claro o que faz. Esse número deve ser pequeno ou grande para melhorar os resultados?

Benoit_Plante
fonte
9
"É improvável que esta pergunta ajude futuros visitantes". Sou um visitante futuro e achei útil.
Flounderer
1
Eu também achei útil.
oaxacamatt

Respostas:

25

Em cada etapa do algoritmo GBM, uma nova árvore de decisão é construída. A pergunta ao cultivar uma árvore de decisão é 'quando parar?'. O mais longe que você pode ir é dividir cada nó até que haja apenas 1 observação em cada nó terminal. Isso corresponderia a n.minobsinnode = 1. Como alternativa, a divisão de nós pode cessar quando um certo número de observações estiver em cada nó. O padrão para o pacote R GBM é 10.

Qual é o melhor valor para usar? Depende do conjunto de dados e se você está fazendo classificação ou regressão. Como a previsão de cada árvore é tomada como a média da variável dependente de todas as entradas no nó terminal, um valor 1 provavelmente não funcionará tão bem para a regressão (!), Mas pode ser adequado para classificação.

Valores mais altos significam árvores menores, para acelerar o algoritmo e usar menos memória, o que pode ser uma consideração.

Geralmente, os resultados não são muito sensíveis a esse parâmetro e, dada a natureza estocástica do desempenho do GBM, pode ser realmente difícil determinar exatamente qual é o melhor valor. A profundidade da interação, o encolhimento e o número de árvores serão muito mais significativos em geral.

Bogdanovist
fonte