Mostrando a equivalência entre as Norm regularizada Regressão e Norm Constrained Regressão Usando KKT

11

De acordo com as referências Livro 1 , Livro 2 e papel .

Foi mencionado que existe uma equivalência entre a regressão regularizada (Ridge, LASSO e Elastic Net) e suas fórmulas de restrição.

Também examinei o Cross Validated 1 e o Cross Validated 2 , mas não vejo uma resposta clara que mostre essa equivalência ou lógica.

Minha pergunta é

Como mostrar essa equivalência usando Karush – Kuhn – Tucker (KKT)?

As fórmulas a seguir são para regressão de Ridge.

Cume

NOTA

Esta pergunta não é lição de casa. É apenas para aumentar minha compreensão deste tópico.

ATUALIZAR

Ainda não tive a ideia.

jeza
fonte
Por que você precisa de mais de uma resposta? A resposta atual parece abordar a questão de forma abrangente. Se você quiser saber mais sobre os métodos de otimização, a Otimização Convexa Lieven Vandenberghe e Stephen P. Boyd é um bom ponto de partida.
Sycorax diz Reinstate Monica
@ Sycorax, obrigado por seus comentários e pelo livro que você me forneceu. A resposta não é tão clara para mim e não posso pedir mais esclarecimentos. Assim, mais de uma resposta pode me permitir ver uma perspectiva e uma maneira de descrição diferentes.
jeza
@ jeza, o que está faltando na minha resposta?
Royi 14/04/19
1
Digite sua pergunta como texto, não basta postar uma fotografia (veja aqui ).
gung - Restabelece Monica

Respostas:

10

A resposta mais técnica é porque o problema de otimização restrita pode ser escrito em termos de multiplicadores de Lagrange. Em particular, o Lagrangiano associado ao problema de otimização restrita é dado por que é um multiplicador escolhido para satisfazer as restrições do problema. As condições de primeira ordem (que são suficientes desde que você esteja trabalhando com funções convexas apropriadas) para esse problema de otimização podem ser obtidas pela diferenciação do Lagrangiano em relação a

L(β)=argminβ{i=1N(yij=1pxijβj)2}+μ{(1α)j=1p|βj|+αj=1pβj2}
μβe definir as derivadas iguais a 0 (é um pouco mais sutil, pois a parte do LASSO possui pontos indiferenciados, mas existem métodos de análise convexa para generalizar a derivada e fazer com que a condição de primeira ordem ainda funcione). É claro que essas condições de primeira ordem são idênticas às condições de primeira ordem do problema irrestrito que você anotou.

No entanto, acho útil ver por que, em geral, com esses problemas de otimização, muitas vezes é possível pensar sobre o problema através das lentes de um problema de otimização restrito ou através das lentes de um problema irrestrito. Mais concretamente, suponha que tenhamos um problema de otimização irrestrito da seguinte forma: Sempre podemos tentar resolver essa otimização diretamente, mas, às vezes, pode fazer sentido quebrar esse problema em sub-componentes. Em particular, não é difícil ver que Portanto, para um valor fixo de

maxxf(x)+λg(x)
maxxf(x)+λg(x)=maxt(maxxf(x) s.t g(x)=t)+λt
λ(e supondo que as funções a serem otimizadas realmente atinjam seus ótimos), podemos associar a ele um valor que resolve o problema externo de otimização. Isso nos dá uma espécie de mapeamento de problemas de otimização irrestritos para problemas restritos. Na sua configuração específica, como tudo é bem comportado para a regressão líquida elástica, esse mapeamento deve ser de fato um para um, por isso será útil poder alternar entre esses dois contextos, dependendo do que for mais útil para uma aplicação específica. Em geral, esse relacionamento entre problemas restritos e irrestritos pode ser menos bem-comportado, mas ainda pode ser útil pensar até que ponto você pode se mover entre o problema restrito e irrestrito.t

Edit: Conforme solicitado, incluirei uma análise mais concreta para a regressão de cordilheiras, pois captura as idéias principais e evita ter que lidar com os aspectos técnicos associados à não diferenciabilidade da penalidade do LASSO. Lembre-se, estamos resolvendo o problema de otimização (em notação matricial):

argminβ{i=1NyixiTβ}s.t.||β||2M

Seja a solução OLS (ou seja, quando não houver restrições). Então, focarei no caso em que(desde que isso exista), caso contrário, a restrição é desinteressante, pois não vincula. O Lagrangiano para esse problema pode ser escrito Então , diferenciando , obtemos as condições de primeira ordem: que é apenas um sistema de equações lineares e, portanto, pode ser resolvido: βOLSM<||βOLS||

L(β)=argminβ{i=1NyixiTβ}μ||β||2M
0=2(i=1Nyixi+(i=1NxixiT+μI)β)
β^=(i=1NxixiT+μI)1(i=1Nyixi)
para alguma escolha de multiplicador . O multiplicador é então simplesmente escolhido para tornar a restrição verdadeira, ou seja, precisamosμ

((i=1NxixiT+μI)1(i=1Nyixi))T((i=1NxixiT+μI)1(i=1Nyixi))=M
que existe desde que o LHS é monotônico em . Essa equação fornece um mapeamento explícito de multiplicadores para restrições, com quando o RHS existe e Esse mapeamento na verdade corresponde a algo bastante intuitivo. O teorema do envelope nos diz queμμ(0,)M(0,||βOLS||)
limμ0M(μ)=||βOLS||
limμM(μ)=0
μ(M)corresponde à diminuição marginal no erro que começa a partir de um pequeno relaxamento da restrição . Isso explica por que quando corresponde a. Uma vez que a restrição não é vinculativa, não há mais valor em relaxá-la, razão pela qual o multiplicador desaparece.Mμ0M||βOLS||

stats_model
fonte
você poderia nos fornecer uma resposta detalhada passo a passo com um exemplo prático, se possível.
jeza
muito obrigado, por que você não menciona KKT? Eu não estou familiarizado com esta área, então me trate como um estudante do ensino médio.
jeza
As condições KKT neste caso são uma generalização das “condições de primeira ordem” que mencionei ao diferenciar o Lagrangiano e definir a derivada igual a 0. Como neste exemplo, as restrições se mantêm com igualdade, não precisamos das condições KKT em geralmente cheio. Em casos mais complicados, tudo o que acontece é que algumas das igualidades acima se tornam desigualdades e o multiplicador se torna 0, pois as restrições se tornam não vinculativas. Por exemplo, é exatamente isso que acontece quandoacima. M>||βOLS||
stats_model
3

Há uma ótima análise por stats_model em sua resposta .

Tentei responder a perguntas semelhantes em A prova de fórmulas equivalentes de regressão de Ridge .

Vou usar mais a abordagem Hand On para este caso.
Vamos tentar ver o mapeamento entre e nos 2 modelos.tλ

Como escrevi e posso ser visto em stats_model em sua análise, o mapeamento depende dos dados. Por isso, escolheremos uma realização específica do problema. No entanto, o código e o esboço da solução adicionarão intuição ao que está acontecendo.

Vamos comparar os 2 modelos a seguir:

The Regularized Model: argminx12Axy22+λx22

The Constrained Model: argminx12Axy22subject tox22t

Vamos supor que seja a solução do modelo regularizado e seja a solução do modelo restrito.x^x~

Estamos vendo o mapeamento de para modo que . Olhando na minha solução para o Solver para Mínimos Quadrados de Restrições Normativas, pode-se ver que resolver o Modelo Restrito envolve resolver o Modelo Regularizado e encontrar o que corresponde ao (o código real é apresentado em Mínimos Quadrados com Euclidiano ( ) restrição de norma ).tλx^=x~
λtL2

Então, executaremos o mesmo solucionador e, para cada , exibiremos o ideal .tλ

O solucionador basicamente resolve:

argλλsubject to(ATA+2λI)1ATb22t=0

Então aqui está a nossa matriz:

mA =

   -0.0716    0.2384   -0.6963   -0.0359
    0.5794   -0.9141    0.3674    1.6489
   -0.1485   -0.0049    0.3248   -1.7484
    0.5391   -0.4839   -0.5446   -0.8117
    0.0023    0.0434    0.5681    0.7776
    0.6104   -0.9808    0.6951   -1.1300

E aqui está o nosso vetor:

vB =

    0.7087
   -1.2776
    0.0753
    1.1536
    1.2268
    1.5418

Este é o mapeamento:

insira a descrição da imagem aqui

Como pode ser visto acima, para um valor alto o suficiente de o parâmetro conforme o esperado.tλ=0

Aproximando o zoom [0, 10]:

insira a descrição da imagem aqui

O código completo está disponível no meu repositório StackExchange Validated Q401212 GitHub .

Royi
fonte