Pergunta: Quais são as vantagens / desvantagens de usar um anterior sobre o outro para a seleção de variáveis?
Suponha que eu tenha a probabilidade: onde eu posso colocar qualquer um dos anteriores: w i ∼ π δ 0 + ( 1 - π ) N ( 0 , 100 )
Ou:
w i ~ exp ( - X | w i | )
Coloquei para enfatizar que a maioria dos pesos é zero e uma gama anterior em λ para escolher o parâmetro 'regularizing'.
No entanto, meu professor continua insistindo que a versão do laço 'encolhe' os coeficientes e não está realmente fazendo a seleção adequada das variáveis, ou seja, há um encolhimento excessivo até dos parâmetros relevantes.
bayesian
feature-selection
sachinruk
fonte
fonte
Respostas:
Ambos os métodos (LASSO x espigão e laje) podem ser interpretados como problemas de estimativa bayesiana nos quais você está especificando parâmetros diferentes. Uma das principais diferenças é que o método LASSO não coloca nenhuma massa pontual em zero para o anterior (ou seja, os parâmetros são quase certamente diferentes de zero a priori), enquanto o espigão e laje coloca uma massa pontual substancial em zero.
Na minha humilde opinião, o principal vantagem do método spike-and-slab é que ele é adequado para problemas em que o número de parâmetros é maior que o número de pontos de dados e você deseja eliminar completamente um número substancial de parâmetros do modelo. Como esse método coloca uma grande massa de pontos em zero no anterior, ele produzirá estimativas posteriores que tendem a envolver apenas uma pequena proporção dos parâmetros, evitando evitar o excesso de ajuste dos dados.
Quando seu professor lhe diz que o primeiro não está realizando um método de seleção de variáveis, o que ele provavelmente quer dizer é isso. Sob o LASSO, cada um dos parâmetros é quase certamente diferente de zero a priori (ou seja, todos estão no modelo). Como a probabilidade também é diferente de zero sobre o suporte ao parâmetro, isso também significa que cada um é quase certamente diferente de zero a priori (ou seja, todos estão no modelo). Agora, você pode suplementar isso com um teste de hipóteses e excluir parâmetros do modelo dessa maneira, mas esse seria um teste adicional imposto sobre o modelo bayesiano.
Os resultados da estimativa bayesiana refletirão uma contribuição dos dados e uma contribuição do anterior. Naturalmente, uma distribuição anterior que está mais concentrada em torno de zero (como o espigão e laje) de fato "encolherá" os estimadores de parâmetros resultantes, em relação a um prioritário menos concentrado (como o LASSO). Obviamente, esse "encolhimento" é apenas o efeito das informações anteriores que você especificou. A forma do anterior do LASSO significa que ele está encolhendo todas as estimativas de parâmetros em relação à média, em relação a um anterior mais plano.
fonte