De acordo com as referências Livro 1 , Livro 2 e papel .
Foi mencionado que existe uma equivalência entre a regressão regularizada (Ridge, LASSO e Elastic Net) e suas fórmulas de restrição.
Também examinei o Cross Validated 1 e o Cross Validated 2 , mas não vejo uma resposta clara que mostre essa equivalência ou lógica.
Minha pergunta é
Como mostrar essa equivalência usando Karush – Kuhn – Tucker (KKT)?
As fórmulas a seguir são para regressão de Ridge.
NOTA
Esta pergunta não é lição de casa. É apenas para aumentar minha compreensão deste tópico.
ATUALIZAR
Ainda não tive a ideia.
Respostas:
A resposta mais técnica é porque o problema de otimização restrita pode ser escrito em termos de multiplicadores de Lagrange. Em particular, o Lagrangiano associado ao problema de otimização restrita é dado por que é um multiplicador escolhido para satisfazer as restrições do problema. As condições de primeira ordem (que são suficientes desde que você esteja trabalhando com funções convexas apropriadas) para esse problema de otimização podem ser obtidas pela diferenciação do Lagrangiano em relação aL(β)=argminβ⎧⎩⎨∑i=1N(yi−∑j=1pxijβj)2⎫⎭⎬+μ{(1−α)∑j=1p|βj|+α∑j=1pβ2j} μ β e definir as derivadas iguais a 0 (é um pouco mais sutil, pois a parte do LASSO possui pontos indiferenciados, mas existem métodos de análise convexa para generalizar a derivada e fazer com que a condição de primeira ordem ainda funcione). É claro que essas condições de primeira ordem são idênticas às condições de primeira ordem do problema irrestrito que você anotou.
No entanto, acho útil ver por que, em geral, com esses problemas de otimização, muitas vezes é possível pensar sobre o problema através das lentes de um problema de otimização restrito ou através das lentes de um problema irrestrito. Mais concretamente, suponha que tenhamos um problema de otimização irrestrito da seguinte forma: Sempre podemos tentar resolver essa otimização diretamente, mas, às vezes, pode fazer sentido quebrar esse problema em sub-componentes. Em particular, não é difícil ver que Portanto, para um valor fixo demaxxf(x)+λg(x) maxxf(x)+λg(x)=maxt(maxxf(x) s.t g(x)=t)+λt λ (e supondo que as funções a serem otimizadas realmente atinjam seus ótimos), podemos associar a ele um valor que resolve o problema externo de otimização. Isso nos dá uma espécie de mapeamento de problemas de otimização irrestritos para problemas restritos. Na sua configuração específica, como tudo é bem comportado para a regressão líquida elástica, esse mapeamento deve ser de fato um para um, por isso será útil poder alternar entre esses dois contextos, dependendo do que for mais útil para uma aplicação específica. Em geral, esse relacionamento entre problemas restritos e irrestritos pode ser menos bem-comportado, mas ainda pode ser útil pensar até que ponto você pode se mover entre o problema restrito e irrestrito.t∗
Edit: Conforme solicitado, incluirei uma análise mais concreta para a regressão de cordilheiras, pois captura as idéias principais e evita ter que lidar com os aspectos técnicos associados à não diferenciabilidade da penalidade do LASSO. Lembre-se, estamos resolvendo o problema de otimização (em notação matricial):
Seja a solução OLS (ou seja, quando não houver restrições). Então, focarei no caso em que(desde que isso exista), caso contrário, a restrição é desinteressante, pois não vincula. O Lagrangiano para esse problema pode ser escrito Então , diferenciando , obtemos as condições de primeira ordem: que é apenas um sistema de equações lineares e, portanto, pode ser resolvido:βOLS M<∣∣∣∣βOLS∣∣∣∣ L(β)=argminβ{∑i=1Nyi−xTiβ}−μ⋅||β||2≤M 0=−2(∑i=1Nyixi+(∑i=1NxixTi+μI)β) β^=(∑i=1NxixTi+μI)−1(∑i=1Nyixi)
para alguma escolha de multiplicador . O multiplicador é então simplesmente escolhido para tornar a restrição verdadeira, ou seja, precisamosμ
fonte
Há uma ótima análise por stats_model em sua resposta .
Tentei responder a perguntas semelhantes em A prova de fórmulas equivalentes de regressão de Ridge .
Vou usar mais a abordagem Hand On para este caso.t λ
Vamos tentar ver o mapeamento entre e nos 2 modelos.
Como escrevi e posso ser visto em stats_model em sua análise, o mapeamento depende dos dados. Por isso, escolheremos uma realização específica do problema. No entanto, o código e o esboço da solução adicionarão intuição ao que está acontecendo.
Vamos comparar os 2 modelos a seguir:
Vamos supor que seja a solução do modelo regularizado e seja a solução do modelo restrito.x^ x~
Estamos vendo o mapeamento de para modo que . Olhando na minha solução para o Solver para Mínimos Quadrados de Restrições Normativas, pode-se ver que resolver o Modelo Restrito envolve resolver o Modelo Regularizado e encontrar o que corresponde ao (o código real é apresentado em Mínimos Quadrados com Euclidiano ( ) restrição de norma ).t λ x^=x~
λ t L2
Então, executaremos o mesmo solucionador e, para cada , exibiremos o ideal .t λ
O solucionador basicamente resolve:
Então aqui está a nossa matriz:
E aqui está o nosso vetor:
Este é o mapeamento:
Como pode ser visto acima, para um valor alto o suficiente de o parâmetro conforme o esperado.t λ=0
Aproximando o zoom [0, 10]:
O código completo está disponível no meu repositório StackExchange Validated Q401212 GitHub .
fonte