Seleção de modelo bayesiano e intervalo credível

9

Eu tenho um conjunto de dados com três variáveis, onde todas as variáveis ​​são quantitativas. Vamos chamá-lo de , e . Estou ajustando um modelo de regressão em uma perspectiva bayesiana via MCMC comx 1 x 2yx1x2rjags

Fiz uma análise exploratória e o gráfico de dispersão de sugere que um termo quadrático deve ser usado. Então eu montei dois modelosy×x2

(1)y=β0+β1x1+β2x2

(2)y=β0+β1x1+β2x2+β3x1x2+β4x12+β5x22

No modelo 1, o tamanho do efeito de cada parâmetro não é pequeno e o intervalo credível de 95% não contém o valor .0

No modelo 2, o tamanho do efeito dos parâmetros e é pequeno e cada um dos intervalos credíveis para todos os parâmetros contém .β 4 0β3β40

O fato de um intervalo credível conter é suficiente para dizer que o parâmetro não é significativo?0

Então eu ajustei o seguinte modelo

(3)y=β0+β1x1+β2x2+β3x22

O tamanho do efeito de cada parâmetro não é pequeno, mas com exceção de todos os intervalos credíveis contêm . 0β10

Qual é o caminho certo para fazer a seleção de variáveis ​​nas estatísticas bayesianas?

Edição: Eu posso usar Lasso em qualquer modelo de regressão, como o modelo Beta? Estou usando um modelo com dispersão variável em que que é um vetor. Também devo usar o Laplace antes em ?δ

log(σ)=δδX
δδδδδ

EDIT2: Eu dois modelos, um com gaussiana para , e outro com Laplace (exponencial duplo).δ jβjδj

As estimativas para o modelo gaussiano são

            Mean      SD  Naive SE Time-series SE
B[1]     -1.17767 0.07112 0.0007497      0.0007498
B[2]     -0.15624 0.03916 0.0004128      0.0004249
B[3]      0.15600 0.05500 0.0005797      0.0005889
B[4]      0.07682 0.04720 0.0004975      0.0005209
delta[1] -3.42286 0.32934 0.0034715      0.0034712
delta[2]  0.06329 0.27480 0.0028966      0.0028969
delta[3]  1.06856 0.34547 0.0036416      0.0036202
delta[4] -0.32392 0.26944 0.0028401      0.0028138

As estimativas para o modelo Lasso são

              Mean      SD  Naive SE Time-series SE
B[1]     -1.143644 0.07040 0.0007421      0.0007422
B[2]     -0.160541 0.05341 0.0005630      0.0005631
B[3]      0.137026 0.05642 0.0005947      0.0005897
B[4]      0.046538 0.04770 0.0005028      0.0005134
delta[1] -3.569151 0.27840 0.0029346      0.0029575
delta[2] -0.004544 0.15920 0.0016781      0.0016786
delta[3]  0.411220 0.33422 0.0035230      0.0035629
delta[4] -0.034870 0.16225 0.0017103      0.0017103
lambda    7.269359 5.45714 0.0575233      0.0592808

As estimativas para e reduziram muito no modelo Lasso, significa que devo remover essas variáveis ​​do modelo?δ 4δ2δ4

EDIT3: O modelo com duplo exponencial anterior (Lasso) me fornece valores maiores de Deviance, BIC e DIC do que o modelo com anteriores gaussianos e até recebo valores menores depois de remover o coeficiente de dispersão no modelo gaussiano.δ2


fonte
2
A seção 18.4 do DBDA2E * trata da seleção de variáveis ​​em regressão múltipla. Com muita cautela, você pode colocar indicadores de inclusão com cada coeficiente e examinar a probabilidade posterior de inclusão. Ao interpretar distribuições posteriores de parâmetros, o IDH de 95%, incluindo zero, não indica equivalência a zero. * DBDA2E = Fazendo análise de dados bayesiana 2ª edição.
John K. Kruschke
2
A maneira natural de comparar modelos em uma estrutura bayesiana é através de probabilidades marginais, e não de intervalos credíveis. Uma alternativa relacionada à média do modelo é usar uma representação de mistura e inferir dos pesos de cada modelo / componente qual modelo é favorecido pelos dados.
Xian
@ Xi'an, mas comparar dois ou mais modelos por meio de probabilidades marginais não seria o mesmo que usar fatores de Bayes, se todos os modelos tivessem a mesma probabilidade anterior?
DeltaIV
Caro professor Kruschke, tenho uma dúvida sobre o cálculo de intervalos críveis. O que entendi é que pode haver muitos intervalos confiáveis, dependendo da plausibilidade do posterior, com base em diferentes anteriores. Mas aqui como decidir quais priores são mais plausíveis, o que, por sua vez, dá as posteriores mais plausíveis? Outra pergunta é: estou usando a Inferência Variacional (VI) para calcular os posteriores e, eventualmente, calcular o limite inferior da evidência do modelo. Como calcular o intervalo de credibilidade dos posteriores no caso de VI? Além disso, como proceder para o fator Bayes em caso de VI?
Sandipan Karmakar

Respostas:

9

É sabido que a construção de um modelo com base no que é significativo (ou algum outro critério como AIC, se um intervalo credível contém 0 etc.) é bastante problemática, principalmente se você fizer inferência como se não tivesse feito a construção do modelo. Fazer uma análise bayesiana não muda isso (consulte também https://stats.stackexchange.com/a/201931/86652 ). Ou seja, você não deve fazer a seleção de variáveis, mas sim a média do modelo (ou algo que possa obter alguns coeficientes zero, mas reflete todo o processo de modelagem, como LASSO ou rede elástica).

A escolha do modelo bayesiano é mais tipicamente enquadrada como a média do modelo bayesiano. Você tem modelos diferentes, cada um com uma probabilidade anterior diferente. Se a probabilidade do modelo posterior para um modelo se tornar baixa o suficiente, você estará essencialmente descartando o modelo completamente. Para pesos anteriores iguais para cada modelo e anteriores planos, a média do modelo com pesos proporcionais a para cada modelo se aproxima disso.exp(BIC/2)

Como alternativa, você pode expressar a média do modelo como um prior que é uma mistura entre uma massa pontual (o peso da massa pontual é a probabilidade anterior do efeito ser exatamente zero = o efeito não está no modelo) e uma distribuição contínua (por exemplo, priores de espigão e laje). A amostragem MCMC pode ser bastante difícil para esse prior.

Carvalho et al. motivar o encolhimento da ferradura antes, sugerindo que ele funcione como uma aproximação contínua a um espigão e laje anterior. Também é um caso de incorporar o problema em um modelo hierárquico, onde, em certa medida, o tamanho e a presença de efeitos em algumas variáveis ​​relaxam um pouco as evidências necessárias para outras pessoas (através do parâmetro de encolhimento global, isso é um pouco como falsas descobertas controle de taxa) e, por outro lado, permitem que os efeitos individuais se sustentem sozinhos se a evidência for clara o suficiente. Existe uma implementação conveniente disponível no pacote brms R que se baseia no Stan / rstan . Existem vários outros priores semelhantes, como o ferradura + prior, e todo o tópico é uma área de pesquisa em andamento.

Björn
fonte
Laço Bayesiano é assim: stats.stackexchange.com/questions/28609/… ? Eu sou um modelo com variável de dispersão, devo usar o expoente duplo antes desses parâmetros também?
2

Existem vários métodos formais para a seleção de variáveis ​​bayesianas. Uma revisão ligeiramente desatualizada dos métodos de seleção de variáveis ​​bayesianas é apresentada em:

Uma revisão dos métodos bayesianos de seleção de variáveis: o que, como e quais

Uma revisão mais recente, que também inclui uma comparação de diferentes métodos e o desempenho dos pacotes R nos quais eles são implementados, é:

Métodos e ferramentas para seleção de variáveis ​​bayesianas e média de modelo em regressão linear univariada

Essa referência é particularmente útil, pois indica pacotes R específicos, nos quais você só precisa conectar a resposta e os valores de covariáveis ​​(e em alguns casos os valores de hiperparâmetro) para executar a seleção de variáveis.

Outra maneira rápida, suja e não recomendada de conduzir a seleção de variáveis ​​"Bayesianas" é usar a seleção gradual (frente e trás, ambos) usando o BIC e o comando R stepAIC (), que pode ser ajustado para executar a seleção em termos de BIC.

https://stat.ethz.ch/R-manual/R-devel/library/MASS/html/stepAIC.html

Outra maneira rápida e suja de testar é usar a taxa de densidade Savage-Dickey e a simulação posterior que você já possui:β4=0

https://arxiv.org/pdf/0910.1452.pdf

CTHULHU
fonte
Eu acho que a questão está pedindo por isso que os três parâmetros no modelo 3 todos têm regiões credíveis contendo 0 e não se ou não é 0.β4
Michael R. Chernick
@MichaelChernick Então, por que o OP está perguntando "In this case is reasonable say that $\beta_4\neq 0$"? e "Which is the right way to do variable selection in Bayesian statistics"?
CTHULHU
Perdi essa parte da pergunta, mas não acho que tenha sido a questão principal.
Michael R. Chernick
11
@MichaelChernick Bem, acho que o OP tem a última palavra aqui ...
CTHULHU 19/17
1

Toda a idéia da estatística bayesiana é diferente de uma abordagem freqüentista. Dessa maneira, acho que usar os termos de significância não é preciso. Acho que cabe ao leitor decidir se os resultados (distribuição) que você obtém do seu modelo para os seus são para ele confiáveis ​​ou confiáveis. Depende sempre da própria distribuição. Quão inclinado e largo é e quanto da área está abaixo de zero?β

Você também pode encontrar uma boa palestra sobre o tópico aqui em 41:55:

https://vimeo.com/14553953

burton030
fonte
Adicionei um exemplo de histograma de uma variável cujo intervalo credível contém você poderia dar uma olhada? 0
11
De volta do fim de semana. Onde podemos encontrar o histograma?
22417 Burton030