Expressando a restrição de regressão do LASSO via parâmetro de penalidade

7

Dadas as duas formulações equivalentes do problema para a regressão do LASSO, e \ min (RSS) tais que \ sum | \ beta_i | \ leq t , como podemos expressar a -para-um entre \ lambda e t ?min(RSS+λ|βi|)min(RSS)|βi|tλt

Stefan Atanasov
fonte
2
Possível duplicado de KKT contra formulação irrestrita de lasso de regressão
user795305
Você pode usar os multiplicadores Lagrange para alternar entre essas duas formulações.

Respostas:

6

A resposta para sua pergunta segue da consideração da dualidade lagrangiana. Isso foi trabalhado no post que considero duplicado no meu comentário no post do OP. A seguir, descubro o que considero uma derivação mais perspicaz.

Na verdade, quando estamos resolvendo um laço, tentamos minimizar conjuntamente e . Ou seja, buscamos . Isso não parece bem definido no momento, pois sabemos que há alguma tensão entre esses dois objetivos. É isso que as pessoas de otimização chamam de otimização multicritério . Vamos visualizar esse problema plotando para muitos 's. (Observe que aqui , , foi inicializado aleatoriamente e o verdadeiro coeficiente12nyXβ22=RSSβ1argminβ(12nyXβ22,β1)(12nyXβ22,β1)βp=5n=100Xβ tem aproximadamente um quarto das entradas iguais a zero.)

valores alcançáveis ​​de objetos

Aqui, e . Ou seja, o eixo vertical mede a falta de ajuste e o eixo horizontal mede o tamanho do coeficiente. Observe que cortei a parte superior da imagem por uma questão de clareza.F=β1G=12nyXβ22

Os pontos no canto inferior esquerdo da plotagem são os que nos interessam. Esses correspondem aos valores de que possuem a norma pequena e possuem um pequeno erro. De fato, para os pontos no canto inferior esquerdo, não há com o mesmo tamanho e tamanho menor ou o mesmo tamanho com melhor tamanho. Para escolher entre esses pontos, chamados pontos ótimos de pareto , precisamos determinar a importância relativa do ajuste e tamanho, nossos dois objetivos. Isso deve nos lembrar dos parâmetros de ajuste ou no laço irrestrito ou restrito, respectivamente. Abaixo, plotamos em verde algumas soluções de laço, computadas a partir do glmnet, impostas no gráfico acima.β1βλC

soluções de laço impostas

Observe que o laço encontrou exatamente os pontos ótimos de pareto. Isso é muito surpreendente! Como um objetivo multidimensional foi otimizado por um objetivo unidimensional? O processo é chamado de escalarização: pegamos pesos e formamos o problemaQuando ambos os objetivos são convexos, como eles estão aqui, esse problema escalarizado encontra todos os pontos ideais de pareto.μ1,μ20

argminβRpμ1(12nyXβ22)+μ2β1.

Assumindo , que assume que ambos os objetivos estão sendo considerados e escrevendo , temos que isso é apenas o laço , em sua forma usual. Pela dualidade lagrangiana, sabemos que existe de para que, em vez disso, possamos resolver o problema equivalente que .μ10λ=μ2μ1β^unc=argminβRp12nyXβ22+λβ1,Cβ^con=argminβ:β1C12nyXβ22,β^con=β^unc

Agora que entendemos melhor o que estamos tentando resolver e ter uma boa visualização, vamos agora concentrar-se em encontrar uma relação entre os parâmetros de ajuste e .λC

Para um determinado valor de , a estimativa do laço restrito Será um desses pontos verdes no gráfico acima. A maneira como Pode ser encontrada é fixando-se em (para o menor coeficiente de quadrados) e descendo até obter a menor medida possível de falta de ajuste. Ou seja,Como vimos acima, corresponde a uma escalarização do nosso objetivo de vetor e, portanto, é igual à inclinação neste momento:Cβ^con.β^con.β1=min{C,β^LS1}β^LS

C=β^unc1.
λ
λ=12nyXβ22β1β=β^con
(Observe que esta fórmula parece estar correta apenas até constantes. O correto pode ser encontrado rapidamente nas condições de primeira ordem, mas eu gostaria de encontrar uma maneira de motivá-la diretamente a partir dessa estrutura.) Isso corresponde (via regra da cadeia) à primeira resposta no post que eu vinculei como uma possível duplicata.λ
user795305
fonte