O parâmetro de taxa de aprendizado ( ) no Gradient Boosting reduz a contribuição de cada novo modelo de base - tipicamente uma árvore rasa - que é adicionada na série. Foi demonstrado que aumenta drasticamente a precisão do conjunto de testes, o que é compreensível, pois em etapas menores, o mínimo da função de perda pode ser alcançado com mais precisão.
Não entendo por que a taxa de aprendizado é considerada um parâmetro de regularização ? Citando os elementos de aprendizagem estatística , seção 10.12.1, p.364:
Controlar o número de árvores não é a única estratégia de regularização possível. Assim como nas redes neurais e de regressão de crista, também podem ser empregadas técnicas de retração. Valores menores de (mais encolhimento) em resultado do risco de formação maior para o mesmo número de iterações M . Assim, ν e M controlam o risco de previsão nos dados de treinamento.
Regularização significa "maneira de evitar o ajuste excessivo", portanto, é claro que o número de iterações é crucial nesse sentido (um M alto demais leva ao ajuste excessivo). Mas:
Valores menores de (mais encolhimento) em resultado do risco de formação maior para o mesmo número de iterações M .
significa apenas que, com baixas taxas de aprendizado, são necessárias mais iterações para obter a mesma precisão no conjunto de treinamento. Então, como isso se relaciona com a super adaptação?
This is why small learning rate is sort of equal to "more regularizations"
. De acordo com este documento, maior a taxa de aprendizagem, quanto mais regularização: Super-Convergência: Formação muito rápida de Redes Neurais Usando Grande Aprendizagem PreçosCom o método de Newton, você atualiza seus parâmetros subtraindo o gradiente da perda dividido pela curvatura da perda. Na otimização da descida do gradiente, você atualiza seus parâmetros subtraindo o gradiente das perdas vezes a taxa de aprendizado. Em outras palavras, o recíproco da taxa de aprendizado é usado no lugar da curvatura real da perda.
Vamos definir a perda do problema como a perda que define o que é um bom modelo versus um modelo ruim. É a verdadeira perda. Vamos definir a perda otimizada como o que é realmente minimizado pelas suas regras de atualização.
Por definição, um parâmetro de regularização é qualquer termo que esteja na perda otimizada, mas não na perda do problema. Como a taxa de aprendizado está agindo como um termo quadrático extra na perda otimizada, mas não tem nada a ver com a perda do problema, é um parâmetro de regularização.
Outros exemplos de regularização que justificam essa perspectiva são:
fonte
In other words, the reciprocal of the learning rate is used in place of the real loss curvature
. - Eu não sou um especialista de domínio e é a primeira vez que vejo a definição:a regularization parameter is any term that is in the optimized loss, but not the problem loss
. Eu também não entendo direito. Você poderia fornecer uma referência relevante? Agradecemos antecipadamente