Existe uma interpretação bayesiana de regressão linear com regularização simultânea de L1 e L2 (também conhecida como rede elástica)?

17

É sabido que a regressão linear com uma penalidade de é equivalente a encontrar a estimativa de MAP dada uma Gaussiana antes dos coeficientes. Da mesma forma, usar uma penalidade de é equivalente a usar uma distribuição de Laplace como a anterior.eu2eu1

Não é incomum usar alguma combinação ponderada de regularização e . Podemos dizer que isso é equivalente a alguma distribuição anterior sobre os coeficientes (intuitivamente, parece que deve ser)? Podemos dar a essa distribuição uma boa forma analítica (talvez uma mistura de gaussiana e laplaciana)? Se não, por que não?eu1eu2

Michael Curry
fonte
1
veja este artigo: tandfonline.com/doi/abs/10.1198/jasa.2011.tm09241 (Se isso não for respondido adequadamente em uma semana ou duas, publicarei (mais ou menos) um resumo desse artigo)
user795305
7
Devo acrescentar que, sempre que os freqüentadores têm uma penalidade , um bayesiano pode interpretá-la como uma anterior (possivelmente imprópria) sob um modelo gaussiano padrão. pene-pen
user795305
obrigado, este artigo e suas citações respondem perfeitamente à minha pergunta!
Michael Curry
Ótimo! Você se importa em apontar quais citações você quer dizer? (Estou pensando em ler este papel em breve e estou interessado em seus comentários)
user795305
1
OK fixe! Penso que os seus laços de interpretação bayesiana no meu comentário segunda
user795305

Respostas:

6

O comentário de Ben provavelmente é suficiente, mas eu forneço mais algumas referências, uma das quais é anterior ao artigo que Ben fez referência.

Uma representação da rede elástica bayesiana foi proposta por Kyung et. al. em sua Seção 3.1. Embora o anterior para o coeficiente de regressão estivesse correto, os autores anotaram incorretamente a representação da mistura.β

Um modelo bayesiano corrigido para a rede elástica foi recentemente proposto por Roy e Chakraborty (sua Equação 6). Os autores também apresentam um amostrador de Gibbs apropriado para amostragem da distribuição posterior e mostram que o amostrador de Gibbs converge para a distribuição estacionária em uma taxa geométrica. Por esse motivo, essas referências podem ser úteis, além do artigo de Hans .

Greenparker
fonte
(+1) Ótima resposta!
user795305
1
para qualquer pessoa no futuro - vale a pena olhar para todos os trabalhos, mas o artigo Hans fornece alguns exemplos de Gibbs para várias distribuições, além de uma representação hierárquica do prior que pode ser traduzida facilmente para Stan.
Michael Curry