Laço bayesiano vs espiga e laje

14

Pergunta: Quais são as vantagens / desvantagens de usar um anterior sobre o outro para a seleção de variáveis?

Suponha que eu tenha a probabilidade: onde eu posso colocar qualquer um dos anteriores: w iπ δ 0 + ( 1 - π ) N ( 0 , 100 )

yN(XW,σ2Eu)
Ou: w i ~ exp ( - X | w i | )
WEuπδ0 0+(1-π)N(0 0,100)π=0,9,
WEuexp(-λ|WEu|)λΓ(1,1).

Coloquei para enfatizar que a maioria dos pesos é zero e uma gama anterior em λ para escolher o parâmetro 'regularizing'.π=0,9λ

No entanto, meu professor continua insistindo que a versão do laço 'encolhe' os coeficientes e não está realmente fazendo a seleção adequada das variáveis, ou seja, há um encolhimento excessivo até dos parâmetros relevantes.

1|WEu|

sachinruk
fonte
4
Seu professor está correto ao reduzir parâmetros relevantes, mas e daí? Apenas os reduz na medida em que eles não estão contribuindo significativamente para reduzir o erro. E por ser focado em fazer a seleção das variáveis adequada .. o foco não deve ser a redução (de teste) erro
seanv507
Para a maioria dos problemas, sim, eu concordo. No entanto, para alguns problemas (por exemplo, detecção de câncer com expressão gênica), é super importante descobrir quais recursos são os fatores que contribuem. ps Desde então, mudei de meu pós-doutorado, pois ele é um idiota. Ftw de aprendizado de máquina !!!
sachinruk
Spike e Slab são o padrão-ouro na seleção de variáveis ​​e eu também prefiro trabalhar com o LASSO. @Sachin_ruk: a espiga e laje antes podem ser implementados utilizando Variacional Bayes também ...
Sandipan Karmakar
@SandipanKarmakar, você poderia postar um link referente ao espigão e laje com o Bayes Variacional.
Sachinruk 17/09/19
Sua pergunta mescla problemas de modelagem [que antes?] E implementação [Bayes variacionais]. Eles devem ser processados ​​separadamente.
Xi'an

Respostas:

3

Ambos os métodos (LASSO x espigão e laje) podem ser interpretados como problemas de estimativa bayesiana nos quais você está especificando parâmetros diferentes. Uma das principais diferenças é que o método LASSO não coloca nenhuma massa pontual em zero para o anterior (ou seja, os parâmetros são quase certamente diferentes de zero a priori), enquanto o espigão e laje coloca uma massa pontual substancial em zero.

Na minha humilde opinião, o principal vantagem do método spike-and-slab é que ele é adequado para problemas em que o número de parâmetros é maior que o número de pontos de dados e você deseja eliminar completamente um número substancial de parâmetros do modelo. Como esse método coloca uma grande massa de pontos em zero no anterior, ele produzirá estimativas posteriores que tendem a envolver apenas uma pequena proporção dos parâmetros, evitando evitar o excesso de ajuste dos dados.

Quando seu professor lhe diz que o primeiro não está realizando um método de seleção de variáveis, o que ele provavelmente quer dizer é isso. Sob o LASSO, cada um dos parâmetros é quase certamente diferente de zero a priori (ou seja, todos estão no modelo). Como a probabilidade também é diferente de zero sobre o suporte ao parâmetro, isso também significa que cada um é quase certamente diferente de zero a priori (ou seja, todos estão no modelo). Agora, você pode suplementar isso com um teste de hipóteses e excluir parâmetros do modelo dessa maneira, mas esse seria um teste adicional imposto sobre o modelo bayesiano.

Os resultados da estimativa bayesiana refletirão uma contribuição dos dados e uma contribuição do anterior. Naturalmente, uma distribuição anterior que está mais concentrada em torno de zero (como o espigão e laje) de fato "encolherá" os estimadores de parâmetros resultantes, em relação a um prioritário menos concentrado (como o LASSO). Obviamente, esse "encolhimento" é apenas o efeito das informações anteriores que você especificou. A forma do anterior do LASSO significa que ele está encolhendo todas as estimativas de parâmetros em relação à média, em relação a um anterior mais plano.

Restabelecer Monica
fonte