Relaxamento lagrangiano no contexto da regressão de crista

15

Em "Os elementos do aprendizado estatístico" (2ª ed), p63, os autores apresentam as duas formulações a seguir do problema de regressão de crista:

β^ridge=argminβ{i=1N(yiβ0j=1pxijβj)2+λj=1pβj2}

e

β^ridge=argminβi=1N(yiβ0j=1pxijβj)2, subject to j=1pβj2t.

Alega-se que os dois são equivalentes, e que existe uma correspondência de um-para-um entre os parâmetros e t .λt

Parece que a primeira formulação é um relaxamento lagrangiano da segunda. No entanto, nunca tive uma compreensão intuitiva de como ou por que os relaxamentos lagrangianos funcionam.

Existe uma maneira simples de demonstrar que as duas formulações são realmente equivalentes? Se eu tiver que escolher, prefiro intuição do que rigor.

Obrigado.

NPE
fonte
Se você deseja apenas uma explicação intuitiva, vá para 1.03.26 deste vídeo (até o final), há uma explicação intuitiva de como as restrições se relacionam à função objetivo.
user603

Respostas:

3

A correspondência pode ser mais facilmente mostrada usando o Teorema do Envelope .

Primeiro, o Lagrangiano padrão terá um termo adicional . Isso não afetará o problema de maximização se estivermos apenas tratando como determinado, portanto, Hastie et al.λtλ

Agora, se você diferenciar o Lagrangiano completo em relação a , o Teorema do Envelope diz que você pode ignorar os efeitos indiretos de a , porque está no máximo. O que restará é o multiplicador Lagrange de .ttβλt

Mas o que isso significa intuitivamente? Como a restrição se liga no máximo, a derivada do Lagrangiano, avaliada no máximo, é a mesma que a derivada do objetivo original. Portanto, o multiplicador de Lagrange fornece o preço de sombra - o valor em termos do objetivo - de relaxar a restrição aumentando .t

Suponho que essa seja a correspondência que Hastie et al. estão se referindo.

Tristan
fonte