KKT versus formulação irrestrita da regressão do laço

20

A regressão penalizada de L1 (aka laço) é apresentada em duas formulações. Seja as duas funções objetivas Então as duas formulações diferentes são sujeito a e, equivalentemente Usando as condições de Karush-Kuhn-Tucker (KKT), é fácil ver como a condição de estacionariedade para a primeira formulação é equivalente a pegar o gradiente da segunda formulação e defini-lo como 0. O que não consigo encontrar, nem descobrir , é como a condição de folga complementar para a primeira formulação,

Q1=12||YXβ||22Q2=12||YXβ||22+λ||β||1.
argminβQ1
||β||1t,
argminβQ2.
λ(||β||1t)=0, é garantido o cumprimento da solução para a segunda formulação.
goodepic
fonte

Respostas:

16

As duas formulações são equivalentes no sentido de que para cada valor de na primeira formulação, existe um valor de para a segunda formulação, de modo que as duas formulações tenham o mesmo minimizador .tλβ

Aqui está a justificativa:

Considere a formulação do laço: Deixe o minimizador ser e seja . Minha afirmação é que, se você definir na primeira formulação, a solução da primeira formulação também será . Aqui está a prova:

f(β)=12||YXβ||22+λ||β||1
βb=||β||1t=bβ

Considere a primeira formulação Se possível, deixe que a segunda formulação tenha uma solução modo que (observe o sinal estritamente menor que). Então é fácil ver que contradiz o fato de que é uma solução para o laço. Assim, a solução para a primeira formulação também é . beta | | beta | | 1<| | β*| | 1=bf( β )<f(β*)β*β*

min12||YXβ||22 s.t.||β||1b
β^||β^||1<||β||1=bf(β^)<f(β)ββ

Como , a condição de folga complementar é satisfeita no ponto de solução .β t=bβ

Portanto, dada uma formulação de laço com , você constrói uma formulação restrita usando um igual ao valor da norma da solução de laço. Por outro lado, dada uma formulação restrita com , você encontra modo que a solução para o laço seja igual à solução da formulação restrita.t l 1 t λλtl1tλ

(Se você conhece sub-alunos, pode encontrar isso resolvendo a equação , em queλz | | β * | | 1 )XT(yXβ)=λzz||β||1)

elexhobby
fonte
1
Excelente. Depois de ver a solução, você sempre se sente burro por não chegar lá. Suponho que você queira dizer, ao encontrar a contradição, suponha que encontramos um tal que ? | | beta | | 1<| | β*| | 1=bβ^||β^||1<||β||1=b
goodepic
Considere flaggin resposta como correta
bdeonovic
2
você pode explicar por quef(β^)<f(β)
goofd
Isso prova que a solução para a primeira formulação também deve ter uma norma l1 de b. Como isso prova que as duas soluções são realmente as mesmas?
broncoAbierto
1
Além disso, o Lasso nem sempre tem uma solução única, por isso não pode referir-se o minimizador. arxiv.org/pdf/1206.0313.pdf . No entanto, poderíamos nos referir ao conjunto de minimizadores e mostrar que alguns devem pertencer a esse conjunto. β^β
broncoAbierto
3

Acho que a idéia de elexhobby para essa prova é boa, mas não acho que esteja completamente correta.

Ao mostrar que a existência de uma solução para a primeira formulação, , é tal queleva a uma contradição, só podemos assumir a necessidade de, não que . β<β* β=β* β =β*β^β^<ββ^=ββ^=β

Sugiro, em vez disso, que procedamos da seguinte maneira:

Por conveniência, vamos denotar por e a primeira e a segunda formulação, respectivamente. Vamos supor que tenha uma solução exclusiva, , com . Deixe ter uma solução, . Então, nós temos esse(não pode ser maior por causa da restrição) e, portanto, . Se então não é a solução para o , o que contradiz nossas suposições. SeP 2 P 2 β P1P2P2βP 1 ββ *ββ *f ( β ) f ( β * ) f ( β ) < f ( β * ) β * P 2 f ( β )β=bP1β^ββ^βf(β^)f(β)f(β^)<f(β)βP2β = β *f(β^)=f(β)então , pois assumimos que a solução era única.β^=β

No entanto, pode ser que o Lasso tenha várias soluções. Pelo lema 1 de arxiv.org/pdf/1206.0313.pdf , sabemos que todas essas soluções têm o mesmo -norm (e o mesmo valor mínimo, é claro). Definimos essa norma como a restrição para o e prosseguimos.P 11P1

Vamos denotar por o conjunto de soluções para , com . Vamos ter uma solução, . Então, nós temos esse e, por conseguinte, . Se para alguns (e, portanto, para todos eles), então , o que contradiz nossas suposições. Se para alguns então não é o conjunto de soluções paraP 2β =SP2P 1 βS ββ β S f ( β ) f ( β ) β S f ( β ) = f ( β ) β S βSβ=b βSP1β^Sβ^ββSf(β^)f(β)βSf(β^)=f(β)βSβ^Sβ S S P 2 P 1 S P 1 P 2f(β^)<f(β)βSSP2 . Portanto, toda solução para está em , ou seja, qualquer solução para também é uma solução para . Resta provar que o complementar também se aplica.P1SP1P2

broncoAbierto
fonte