Função do parâmetro n.minobsinnode do GBM em R [fechado]
21
Eu queria saber o que o parâmetro n.minobsinnode significa no pacote GBM. Eu li o manual, mas não está claro o que faz. Esse número deve ser pequeno ou grande para melhorar os resultados?
"É improvável que esta pergunta ajude futuros visitantes". Sou um visitante futuro e achei útil.
Flounderer
1
Eu também achei útil.
oaxacamatt
Respostas:
25
Em cada etapa do algoritmo GBM, uma nova árvore de decisão é construída. A pergunta ao cultivar uma árvore de decisão é 'quando parar?'. O mais longe que você pode ir é dividir cada nó até que haja apenas 1 observação em cada nó terminal. Isso corresponderia a n.minobsinnode = 1. Como alternativa, a divisão de nós pode cessar quando um certo número de observações estiver em cada nó. O padrão para o pacote R GBM é 10.
Qual é o melhor valor para usar? Depende do conjunto de dados e se você está fazendo classificação ou regressão. Como a previsão de cada árvore é tomada como a média da variável dependente de todas as entradas no nó terminal, um valor 1 provavelmente não funcionará tão bem para a regressão (!), Mas pode ser adequado para classificação.
Valores mais altos significam árvores menores, para acelerar o algoritmo e usar menos memória, o que pode ser uma consideração.
Geralmente, os resultados não são muito sensíveis a esse parâmetro e, dada a natureza estocástica do desempenho do GBM, pode ser realmente difícil determinar exatamente qual é o melhor valor. A profundidade da interação, o encolhimento e o número de árvores serão muito mais significativos em geral.
Respostas:
Em cada etapa do algoritmo GBM, uma nova árvore de decisão é construída. A pergunta ao cultivar uma árvore de decisão é 'quando parar?'. O mais longe que você pode ir é dividir cada nó até que haja apenas 1 observação em cada nó terminal. Isso corresponderia a n.minobsinnode = 1. Como alternativa, a divisão de nós pode cessar quando um certo número de observações estiver em cada nó. O padrão para o pacote R GBM é 10.
Qual é o melhor valor para usar? Depende do conjunto de dados e se você está fazendo classificação ou regressão. Como a previsão de cada árvore é tomada como a média da variável dependente de todas as entradas no nó terminal, um valor 1 provavelmente não funcionará tão bem para a regressão (!), Mas pode ser adequado para classificação.
Valores mais altos significam árvores menores, para acelerar o algoritmo e usar menos memória, o que pode ser uma consideração.
Geralmente, os resultados não são muito sensíveis a esse parâmetro e, dada a natureza estocástica do desempenho do GBM, pode ser realmente difícil determinar exatamente qual é o melhor valor. A profundidade da interação, o encolhimento e o número de árvores serão muito mais significativos em geral.
fonte