Se o LASSO é equivalente à regressão linear com um Laplace anterior, como pode haver massa em conjuntos com componentes em zero?

20

Todos nós estamos familiarizados com a noção, bem documentada na literatura, de que a otimização do LASSO (por uma questão de simplicidade limita a atenção aqui ao caso da regressão linear)

euoss=__y-Xβ__22+λ__β__1
é equivalente ao modelo linear com erros gaussianos no qual a os parâmetros recebem o Laplace anterior
exp(-λ__β__1)
Também sabemos que quanto mais alto o parâmetro de ajuste, λ , maior a parte dos parâmetros é definida como zero. Dito isto, tenho a seguinte pergunta de pensamento:

Considere que, do ponto de vista bayesiano, podemos calcular a probabilidade posterior de que, digamos, as estimativas de parâmetros diferentes de zero estejam em qualquer coleção de intervalos e os parâmetros definidos como zero pelo LASSO sejam iguais a zero. O que me confundiu é que, como o prior de Laplace é contínuo (na verdade, absolutamente contínuo), então como pode haver massa em qualquer conjunto que é produto de intervalos e singletons em {0 0} ?

Grant Izmirlian
fonte
8
O que faz você pensar que o posterior também não é um pdf contínuo? O fato de o máximo do posterior ocorrer em um ponto que possui muitos 0 componentes não significa por si só que o posterior não é um pdf contínuo.
precisa
O posterior é um PDF contínuo. Visto como estimativa de probabilidade máxima restrita, se imaginarmos desenhos repetidos da mesma distribuição de dados quando o modelo verdadeiro tiver zeros com múltiplos coeficientes de regressão e a constante de ajuste for grande o suficiente, o CMLE sempre terá os mesmos componentes definidos como zero e os não- zero parâmetros se espalharão em intervalos de confiança correspondentes. Da perspectiva bayesiana, isso equivale a ter uma probabilidade positiva para esses conjuntos. Minha pergunta é como isso pode acontecer para uma distribuição contínua.
Grant Izmirlian
2
A solução CLME coincide com a estimativa do MAP. Não há realmente mais nada a ser dito.
Sycorax diz Restabelecer Monica
3
A solução CMLE não é uma amostra da parte posterior.
Brian Borchers
2
Não há contradição porque o posterior não coloca massa em conjuntos de menor dimensão.
Xian

Respostas:

7

Como todos os comentários acima, a interpretação bayesiana do LASSO não leva o valor esperado da distribuição posterior, que é o que você gostaria de fazer se fosse um purista. Se esse fosse o caso, você estaria certo de que há uma chance muito pequena de que o posterior seja zero, dados os dados.

Na realidade, a interpretação bayesiana do LASSO está tomando o estimador MAP (Máximo A Posteriori) do posterior. Parece que você é familiar, mas para quem não é, isso é basicamente a máxima verossimilhança bayesiana, onde você usa o valor que corresponde à probabilidade máxima de ocorrência (ou o modo) como seu estimador para os parâmetros no LASSO. Como a distribuição aumenta exponencialmente até zero da direção negativa e cai exponencialmente na direção positiva, a menos que seus dados sugiram fortemente que o beta seja outro valor significativo, é provável que o valor máximo do valor de seu posterior seja 0.

Para encurtar a história, sua intuição parece basear-se na média do posterior, mas a interpretação bayesiana do LASSO baseia-se em adotar o modo do posterior.

www3
fonte