Digamos que estamos otimizando um modelo com parâmetros , minimizando algum critério sujeito a uma restrição na magnitude do vetor de parâmetro (por exemplo, para implementar uma abordagem de minimização de risco estrutural por construindo um conjunto aninhado de modelos de crescente complexidade), precisaríamos resolver: f( → θ )θ⃗ f(θ⃗ )
minθ⃗ f(θ⃗ )s.t.∥θ⃗ ∥2<C
O Lagrangiano para esse problema é (ressalva: acho que foi um longo dia ... ;-)
Λ(θ⃗ ,λ)=f(θ⃗ )+λ∥θ⃗ ∥2−λC.
Portanto, pode-se ver facilmente que uma função de custo regularizado está intimamente relacionada a um problema de otimização restrito, com o parâmetro de regularização relacionado à constante que governa a restrição ( ) e é essencialmente o multiplicador de Lagrange. λC
Isso ilustra por que, por exemplo, a regressão de cume implementa a minimização de risco estrutural: Regularização é equivalente a restringir a magnitude do vetor de peso e, se , todos os modelos que podem ser feitos enquanto obedecem à restrição queC1>C2
∥θ⃗ ∥2<C2
também estará disponível sob a restrição
∥θ⃗ ∥2<C1 .
Portanto, a redução de gera uma sequência de espaços de hipóteses de crescente complexidade.λ