Eu tenho um conjunto de dados com três variáveis, onde todas as variáveis são quantitativas. Vamos chamá-lo de , e . Estou ajustando um modelo de regressão em uma perspectiva bayesiana via MCMC comx 1 x 2rjags
Fiz uma análise exploratória e o gráfico de dispersão de sugere que um termo quadrático deve ser usado. Então eu montei dois modelos
(1)
(2)
No modelo 1, o tamanho do efeito de cada parâmetro não é pequeno e o intervalo credível de 95% não contém o valor .
No modelo 2, o tamanho do efeito dos parâmetros e é pequeno e cada um dos intervalos credíveis para todos os parâmetros contém .β 4 0
O fato de um intervalo credível conter é suficiente para dizer que o parâmetro não é significativo?
Então eu ajustei o seguinte modelo
(3)
O tamanho do efeito de cada parâmetro não é pequeno, mas com exceção de todos os intervalos credíveis contêm . 0
Qual é o caminho certo para fazer a seleção de variáveis nas estatísticas bayesianas?
Edição: Eu posso usar Lasso em qualquer modelo de regressão, como o modelo Beta? Estou usando um modelo com dispersão variável em que que é um vetor. Também devo usar o Laplace antes em ?δ
EDIT2: Eu dois modelos, um com gaussiana para , e outro com Laplace (exponencial duplo).δ j
As estimativas para o modelo gaussiano são
Mean SD Naive SE Time-series SE
B[1] -1.17767 0.07112 0.0007497 0.0007498
B[2] -0.15624 0.03916 0.0004128 0.0004249
B[3] 0.15600 0.05500 0.0005797 0.0005889
B[4] 0.07682 0.04720 0.0004975 0.0005209
delta[1] -3.42286 0.32934 0.0034715 0.0034712
delta[2] 0.06329 0.27480 0.0028966 0.0028969
delta[3] 1.06856 0.34547 0.0036416 0.0036202
delta[4] -0.32392 0.26944 0.0028401 0.0028138
As estimativas para o modelo Lasso são
Mean SD Naive SE Time-series SE
B[1] -1.143644 0.07040 0.0007421 0.0007422
B[2] -0.160541 0.05341 0.0005630 0.0005631
B[3] 0.137026 0.05642 0.0005947 0.0005897
B[4] 0.046538 0.04770 0.0005028 0.0005134
delta[1] -3.569151 0.27840 0.0029346 0.0029575
delta[2] -0.004544 0.15920 0.0016781 0.0016786
delta[3] 0.411220 0.33422 0.0035230 0.0035629
delta[4] -0.034870 0.16225 0.0017103 0.0017103
lambda 7.269359 5.45714 0.0575233 0.0592808
As estimativas para e reduziram muito no modelo Lasso, significa que devo remover essas variáveis do modelo?δ 4
EDIT3: O modelo com duplo exponencial anterior (Lasso) me fornece valores maiores de Deviance, BIC e DIC do que o modelo com anteriores gaussianos e até recebo valores menores depois de remover o coeficiente de dispersão no modelo gaussiano.
Respostas:
É sabido que a construção de um modelo com base no que é significativo (ou algum outro critério como AIC, se um intervalo credível contém 0 etc.) é bastante problemática, principalmente se você fizer inferência como se não tivesse feito a construção do modelo. Fazer uma análise bayesiana não muda isso (consulte também https://stats.stackexchange.com/a/201931/86652 ). Ou seja, você não deve fazer a seleção de variáveis, mas sim a média do modelo (ou algo que possa obter alguns coeficientes zero, mas reflete todo o processo de modelagem, como LASSO ou rede elástica).
A escolha do modelo bayesiano é mais tipicamente enquadrada como a média do modelo bayesiano. Você tem modelos diferentes, cada um com uma probabilidade anterior diferente. Se a probabilidade do modelo posterior para um modelo se tornar baixa o suficiente, você estará essencialmente descartando o modelo completamente. Para pesos anteriores iguais para cada modelo e anteriores planos, a média do modelo com pesos proporcionais a para cada modelo se aproxima disso.exp(−BIC/2)
Como alternativa, você pode expressar a média do modelo como um prior que é uma mistura entre uma massa pontual (o peso da massa pontual é a probabilidade anterior do efeito ser exatamente zero = o efeito não está no modelo) e uma distribuição contínua (por exemplo, priores de espigão e laje). A amostragem MCMC pode ser bastante difícil para esse prior.
Carvalho et al. motivar o encolhimento da ferradura antes, sugerindo que ele funcione como uma aproximação contínua a um espigão e laje anterior. Também é um caso de incorporar o problema em um modelo hierárquico, onde, em certa medida, o tamanho e a presença de efeitos em algumas variáveis relaxam um pouco as evidências necessárias para outras pessoas (através do parâmetro de encolhimento global, isso é um pouco como falsas descobertas controle de taxa) e, por outro lado, permitem que os efeitos individuais se sustentem sozinhos se a evidência for clara o suficiente. Existe uma implementação conveniente disponível no pacote brms R que se baseia no Stan / rstan . Existem vários outros priores semelhantes, como o ferradura + prior, e todo o tópico é uma área de pesquisa em andamento.
fonte
Existem vários métodos formais para a seleção de variáveis bayesianas. Uma revisão ligeiramente desatualizada dos métodos de seleção de variáveis bayesianas é apresentada em:
Uma revisão dos métodos bayesianos de seleção de variáveis: o que, como e quais
Uma revisão mais recente, que também inclui uma comparação de diferentes métodos e o desempenho dos pacotes R nos quais eles são implementados, é:
Métodos e ferramentas para seleção de variáveis bayesianas e média de modelo em regressão linear univariada
Essa referência é particularmente útil, pois indica pacotes R específicos, nos quais você só precisa conectar a resposta e os valores de covariáveis (e em alguns casos os valores de hiperparâmetro) para executar a seleção de variáveis.
Outra maneira rápida, suja e não recomendada de conduzir a seleção de variáveis "Bayesianas" é usar a seleção gradual (frente e trás, ambos) usando o BIC e o comando R stepAIC (), que pode ser ajustado para executar a seleção em termos de BIC.
https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/stepAIC.html
Outra maneira rápida e suja de testar é usar a taxa de densidade Savage-Dickey e a simulação posterior que você já possui:β4=0
https://arxiv.org/pdf/0910.1452.pdf
fonte
"In this case is reasonable say that $\beta_4\neq 0$"
? e"Which is the right way to do variable selection in Bayesian statistics"
?Toda a idéia da estatística bayesiana é diferente de uma abordagem freqüentista. Dessa maneira, acho que usar os termos de significância não é preciso. Acho que cabe ao leitor decidir se os resultados (distribuição) que você obtém do seu modelo para os seus são para ele confiáveis ou confiáveis. Depende sempre da própria distribuição. Quão inclinado e largo é e quanto da área está abaixo de zero?β
Você também pode encontrar uma boa palestra sobre o tópico aqui em 41:55:
https://vimeo.com/14553953
fonte