Li em várias referências que a estimativa de Lasso para o vetor de parâmetro de regressão é equivalente ao modo posterior de no qual a distribuição anterior para cada é uma distribuição exponencial dupla (também conhecida como distribuição de Laplace).
Eu tenho tentado provar isso, alguém pode detalhar os detalhes?
regression
bayesian
lasso
prior
regularization
Wintermute
fonte
fonte
Respostas:
Por uma questão de simplicidade, vamos considerar apenas uma observação de uma variávelY tal que
Então a densidade da junta deY,μ,σ2 é proporcional a
Portanto, o máximo de (1) será uma estimativa do MAP e, de fato, é o problema de Lasso depois que reparametrizamos .λ~=λσ2
A extensão da regressão é clara - substitua por na probabilidade Normal e defina o anterior como uma sequência de distribuições independentes de laplace .μ Xβ β (λ)
fonte
Isso é óbvio pela inspeção da quantidade que o LASSO está otimizando.
o anterior para ser Laplace independente com média zero e alguma escala .βi τ
Então .p(β|τ)∝e−12τ∑i|βi|
O modelo para os dados é a suposição de regressão usual .y∼iidN(Xβ,σ2)
Agora menos o dobro do log do posterior é da forma
Let e temos posterior deλ=σ2/τ −2log
O estimador MAP para minimiza o acima, o que minimizaβ
Portanto, o estimador MAP para é LASSO.β
(Aqui eu tratei como efetivamente corrigido, mas você pode fazer outras coisas com ele e ainda obter o LASSO saindo.)σ2
Edit: Isso é o que recebo para escrever uma resposta off-line; Não vi uma boa resposta já ter sido postada por Andrew. O meu realmente não faz nada que o dele já não faz. Deixarei o meu por enquanto, pois ele fornece mais alguns detalhes do desenvolvimento em termos de .β
fonte