Por que a pena de Lasso é equivalente à dupla exponencial (Laplace) anterior?

27

Li em várias referências que a estimativa de Lasso para o vetor de parâmetro de regressão B é equivalente ao modo posterior de B no qual a distribuição anterior para cada Bi é uma distribuição exponencial dupla (também conhecida como distribuição de Laplace).

Eu tenho tentado provar isso, alguém pode detalhar os detalhes?

Wintermute
fonte
@ user777 Eu estava folheando esse livro por um tempo hoje. Não foi possível encontrar nada relevante.
Wintermute 17/11/2015

Respostas:

30

Por uma questão de simplicidade, vamos considerar apenas uma observação de uma variável Y tal que

Y|μ,σ2N(μ,σ2),

μLaplace(λ) e o anterior inadequado f(σ)1σ>0 .

Então a densidade da junta de Y,μ,σ2 é proporcional a

f(Y,μ,σ2|λ)1σexp((yμ)2σ2)×2λeλ|μ|.

μ

logf(Y,μ,σ2)=1σ2yμ22λ|μ|.(1)

Portanto, o máximo de (1) será uma estimativa do MAP e, de fato, é o problema de Lasso depois que reparametrizamos . λ~=λσ2

A extensão da regressão é clara - substitua por na probabilidade Normal e defina o anterior como uma sequência de distribuições independentes de laplace .μXββ(λ)

Andrew M
fonte
25

Isso é óbvio pela inspeção da quantidade que o LASSO está otimizando.

o anterior para ser Laplace independente com média zero e alguma escala .βiτ

Então .p(β|τ)e12τi|βi|

O modelo para os dados é a suposição de regressão usual .yiidN(Xβ,σ2)

f(y|X,β,σ2)(σ2)n/2exp(12σ2(yXβ)T(yXβ))

Agora menos o dobro do log do posterior é da forma

k(σ2,τ,n,p)+ 1σ2(yXβ)T(yXβ)+1τi|βi|

Let e temos posterior deλ=σ2/τ2log

k(σ2,λ,n,p)+ 1σ2[(yXβ)T(yXβ)+λi|βi|]

O estimador MAP para minimiza o acima, o que minimizaβ

S=(yXβ)T(yXβ)+λi|βi|

Portanto, o estimador MAP para é LASSO.β

(Aqui eu tratei como efetivamente corrigido, mas você pode fazer outras coisas com ele e ainda obter o LASSO saindo.)σ2

Edit: Isso é o que recebo para escrever uma resposta off-line; Não vi uma boa resposta já ter sido postada por Andrew. O meu realmente não faz nada que o dele já não faz. Deixarei o meu por enquanto, pois ele fornece mais alguns detalhes do desenvolvimento em termos de .β

Glen_b -Reinstate Monica
fonte
11
Parece haver uma diferença na sua resposta e na de Andrew. Sua resposta tem a forma correta do regularizador: , enquanto Andrew tem, onde na regressão linear, obtemos . λβ1λ|μ|μ=Xβ
Alex R.
2
@AlexR Acho que você está interpretando mal o µ na resposta de Andrew. O µ corresponde a a em uma regressão com apenas uma interceptação, e não a em uma regressão múltipla; o mesmo argumento segue para o caso maior (observe os paralelos com a minha resposta), mas é mais fácil seguir no caso simples. A resposta de Andrew é essencialmente correta, mas não liga todos os pontos à pergunta original, deixando uma pequena quantidade para o leitor preencher. Acho que nossas respostas são consistentes (até algumas pequenas diferenças relacionadas a σ que podem ser explicadas) e que ele merecia totalmente o tickβ0Xβ
Glen_b -Reinstala Monica 20/11/2015