Expressando a restrição de regressão do LASSO via parâmetro de penalidade
7
Dadas as duas formulações equivalentes do problema para a regressão do LASSO, e \ min (RSS) tais que \ sum | \ beta_i | \ leq t , como podemos expressar a -para-um entre \ lambda e t ?min(RSS+λ∑|βi|)min(RSS)∑|βi|≤tλt
Você pode usar os multiplicadores Lagrange para alternar entre essas duas formulações.
Respostas:
6
A resposta para sua pergunta segue da consideração da dualidade lagrangiana. Isso foi trabalhado no post que considero duplicado no meu comentário no post do OP. A seguir, descubro o que considero uma derivação mais perspicaz.
Na verdade, quando estamos resolvendo um laço, tentamos minimizar conjuntamente e . Ou seja, buscamos . Isso não parece bem definido no momento, pois sabemos que há alguma tensão entre esses dois objetivos. É isso que as pessoas de otimização chamam de otimização multicritério . Vamos visualizar esse problema plotando para muitos 's. (Observe que aqui , , foi inicializado aleatoriamente e o verdadeiro coeficiente12n∥y−Xβ∥22=RSS∥β∥1argminβ(12n∥y−Xβ∥22,∥β∥1)(12n∥y−Xβ∥22,∥β∥1)βp=5n=100Xβ∗ tem aproximadamente um quarto das entradas iguais a zero.)
Aqui, e . Ou seja, o eixo vertical mede a falta de ajuste e o eixo horizontal mede o tamanho do coeficiente. Observe que cortei a parte superior da imagem por uma questão de clareza.F=∥β∥1G=12n∥y−Xβ∥22
Os pontos no canto inferior esquerdo da plotagem são os que nos interessam. Esses correspondem aos valores de que possuem a norma pequena e possuem um pequeno erro. De fato, para os pontos no canto inferior esquerdo, não há com o mesmo tamanho e tamanho menor ou o mesmo tamanho com melhor tamanho. Para escolher entre esses pontos, chamados pontos ótimos de pareto , precisamos determinar a importância relativa do ajuste e tamanho, nossos dois objetivos. Isso deve nos lembrar dos parâmetros de ajuste ou no laço irrestrito ou restrito, respectivamente. Abaixo, plotamos em verde algumas soluções de laço, computadas a partir do glmnet, impostas no gráfico acima.βℓ1βλC
Observe que o laço encontrou exatamente os pontos ótimos de pareto. Isso é muito surpreendente! Como um objetivo multidimensional foi otimizado por um objetivo unidimensional? O processo é chamado de escalarização: pegamos pesos e formamos o problemaQuando ambos os objetivos são convexos, como eles estão aqui, esse problema escalarizado encontra todos os pontos ideais de pareto.μ1,μ2≥0
argminβ∈Rpμ1(12n∥y−Xβ∥22)+μ2∥β∥1.
Assumindo , que assume que ambos os objetivos estão sendo considerados e escrevendo , temos que isso é apenas o laço , em sua forma usual. Pela dualidade lagrangiana, sabemos que existe de para que, em vez disso, possamos resolver o problema equivalente que .μ1≠0λ=μ2μ1β^unc=argminβ∈Rp12n∥y−Xβ∥22+λ∥β∥1,Cβ^con=argminβ:∥β∥1≤C12n∥y−Xβ∥22,β^con=β^unc
Agora que entendemos melhor o que estamos tentando resolver e ter uma boa visualização, vamos agora concentrar-se em encontrar uma relação entre os parâmetros de ajuste e .λC
Para um determinado valor de , a estimativa do laço restrito Será um desses pontos verdes no gráfico acima. A maneira como Pode ser encontrada é fixando-se em (para o menor coeficiente de quadrados) e descendo até obter a menor medida possível de falta de ajuste. Ou seja,Como vimos acima, corresponde a uma escalarização do nosso objetivo de vetor e, portanto, é igual à inclinação neste momento:Cβ^con.β^con.∥β∥1=min{C,∥β^LS∥1}β^LS
C=∥β^unc∥1.
λ
λ=−∂12n∥y−Xβ∥22∂∥β∥1∣β=β^con
(Observe que esta fórmula parece estar correta apenas até constantes. O correto pode ser encontrado rapidamente nas condições de primeira ordem, mas eu gostaria de encontrar uma maneira de motivá-la diretamente a partir dessa estrutura.) Isso corresponde (via regra da cadeia) à primeira resposta no post que eu vinculei como uma possível duplicata.λ
Respostas:
A resposta para sua pergunta segue da consideração da dualidade lagrangiana. Isso foi trabalhado no post que considero duplicado no meu comentário no post do OP. A seguir, descubro o que considero uma derivação mais perspicaz.
Na verdade, quando estamos resolvendo um laço, tentamos minimizar conjuntamente e . Ou seja, buscamos . Isso não parece bem definido no momento, pois sabemos que há alguma tensão entre esses dois objetivos. É isso que as pessoas de otimização chamam de otimização multicritério . Vamos visualizar esse problema plotando para muitos 's. (Observe que aqui , , foi inicializado aleatoriamente e o verdadeiro coeficiente12n∥y−Xβ∥22=RSS ∥β∥1 argminβ(12n∥y−Xβ∥22,∥β∥1) (12n∥y−Xβ∥22,∥β∥1) β p=5 n=100 X β∗ tem aproximadamente um quarto das entradas iguais a zero.)
Aqui, e . Ou seja, o eixo vertical mede a falta de ajuste e o eixo horizontal mede o tamanho do coeficiente. Observe que cortei a parte superior da imagem por uma questão de clareza.F=∥β∥1 G=12n∥y−Xβ∥22
Os pontos no canto inferior esquerdo da plotagem são os que nos interessam. Esses correspondem aos valores de que possuem a norma pequena e possuem um pequeno erro. De fato, para os pontos no canto inferior esquerdo, não há com o mesmo tamanho e tamanho menor ou o mesmo tamanho com melhor tamanho. Para escolher entre esses pontos, chamados pontos ótimos de pareto , precisamos determinar a importância relativa do ajuste e tamanho, nossos dois objetivos. Isso deve nos lembrar dos parâmetros de ajuste ou no laço irrestrito ou restrito, respectivamente. Abaixo, plotamos em verde algumas soluções de laço, computadas a partir do glmnet, impostas no gráfico acima.β ℓ1 β λ C
Observe que o laço encontrou exatamente os pontos ótimos de pareto. Isso é muito surpreendente! Como um objetivo multidimensional foi otimizado por um objetivo unidimensional? O processo é chamado de escalarização: pegamos pesos e formamos o problemaQuando ambos os objetivos são convexos, como eles estão aqui, esse problema escalarizado encontra todos os pontos ideais de pareto.μ1,μ2≥0
Assumindo , que assume que ambos os objetivos estão sendo considerados e escrevendo , temos que isso é apenas o laço , em sua forma usual. Pela dualidade lagrangiana, sabemos que existe de para que, em vez disso, possamos resolver o problema equivalente que .μ1≠0 λ=μ2μ1 β^unc=argminβ∈Rp12n∥y−Xβ∥22+λ∥β∥1, C β^con=argminβ:∥β∥1≤C12n∥y−Xβ∥22, β^con=β^unc
Agora que entendemos melhor o que estamos tentando resolver e ter uma boa visualização, vamos agora concentrar-se em encontrar uma relação entre os parâmetros de ajuste e .λ C
Para um determinado valor de , a estimativa do laço restrito Será um desses pontos verdes no gráfico acima. A maneira como Pode ser encontrada é fixando-se em (para o menor coeficiente de quadrados) e descendo até obter a menor medida possível de falta de ajuste. Ou seja,Como vimos acima, corresponde a uma escalarização do nosso objetivo de vetor e, portanto, é igual à inclinação neste momento:C β^con. β^con. ∥β∥1=min{C,∥β^LS∥1} β^LS
fonte