Distribuição da proposta da matriz de covariância

8

Em uma implementação do MCMC de modelos hierárquicos, com efeitos aleatórios normais e um Wishart anterior para sua matriz de covariância, a amostragem de Gibbs é normalmente usada.

No entanto, se alterarmos a distribuição dos efeitos aleatórios (por exemplo, para Student-t ou outro), a conjugação será perdida. Nesse caso, qual seria uma distribuição de proposta adequada (ou seja, facilmente sintonizável) para a matriz de covariância dos efeitos aleatórios em um algoritmo Metropolis-Hastings, e qual deveria ser a taxa de aceitação desejada, novamente 0,244?

Agradecemos antecipadamente por quaisquer ponteiros.

Toka Stall
fonte

Respostas:

16

Bem, se você está procurando "por qualquer ponteiro" ...

A distribuição Wishart (escalada) (inversa) é frequentemente usada porque é conjugada à função de probabilidade multivariada e, portanto, simplifica a amostragem de Gibbs.

Em Stan , que usa amostragem Hamiltoniana de Monte Carlo, não há restrições para os priores multivariados. A abordagem recomendada é a estratégia de separação sugerida por Barnard, McCulloch e Meng : onde é um vetor de std devs e é uma matriz de correlação.

Σ=diag_matrix(σ)Ωdiag_matrix(σ)
σΩ

Os componentes do podem ser dado qualquer prévia razoável. Quanto a , o anterior recomendado é que "LKJ" significa Lewandowski, Kurowicka e Joe . À medida que aumenta, o prior concentra-se cada vez mais em torno da matriz de correlação unitária, em a distribuição de correlação LKJ se reduz à distribuição de identidade sobre matrizes de correlação. O LKJ anterior pode assim ser usado para controlar a quantidade esperada de correlação entre os parâmetros.σΩ

ΩLKJcorr(ν)
νν=1

No entanto, eu ainda não tentei distribuições não normais de efeitos aleatórios, por isso espero não ter esquecido o ponto ;-)

Sergio
fonte
Essa resposta fala sobre o prior, o OP pergunta sobre a proposta ... Esses priors ajudam de alguma forma com a taxa de aceitação?
Um velho no mar.
@ Sycorax E a proposta que o OP pediu? o que ele deve usar e com quais parâmetros?
Um velho no mar.
1

Pessoalmente, uso as propostas de Wishart. Por exemplo, se eu quiser uma proposta torno de , eu uso: onde é um número grande, como 1000. Com Nesse truque, você receberá e poderá ajustar a variação com . Se não me engano, a proporção de propostas para matrizes tem uma forma fechada: ΣΣ

ΣW(Σ/a,a),
aE[Σ]=Σa(p×p)
q(ΣΣ)q(ΣΣ)=(|Σ||Σ|)a(p1)/2e[tr(Σ1Σ)tr(Σ1Σ)]a/2

RemiDav
fonte
0

É sabido que, se você usar distribuições não gaussianas, a conjugação do modelo será perdida, consulte:

http://www.utstat.toronto.edu/wordpress/WSFiles/technicalreports/0610.pdf

Em seguida, você precisa usar outros métodos do MCMC, como Metropolis na amostra de Gibbs ou alguma versão adaptável dela. Felizmente, há um pacote R para fazer isso:

http://cran.r-project.org/web/packages/spBayes/index.html

A taxa de aceitação recomendada é de 0,44 , mas, é claro, existem algumas suposições por trás desse número, da mesma forma que no caso dos 0,244.

Você é THE Dimitris Rizopoulos?

Teco
fonte
@DimitrisRizopoulos A metrópole adaptativa entre Gibbs que mencionei usa uma mistura finita de distribuições gaussianas como distribuição de proposta (conforme declarado no relatório técnico que publiquei). Se você usa o Metropolis hardcore, está solicitando uma resposta para a "pergunta do milhão de dólares", para a qual não há solução geral. Normalmente você tem que jogar com diferentes propostas e diferentes taxas de aceitação. Livro muito bom, a propósito.
Teco
0

Qualquer proposta pode ser usada se você definir seu log-posterior corretamente. Você só precisa usar alguns truques para implementá-lo e definir adequadamente o suporte do seu posterior, consulte:

Como encontrar o suporte da distribuição posterior para aplicar o algoritmo Metropolis-Hastings MCMC?

Existem muitos exemplos em que uma proposta gaussiana pode ser usada para posteriores truncados. Este é apenas um truque de implementação. Novamente, você está fazendo uma pergunta sem solução geral. Algumas propostas ainda têm desempenho diferente para o mesmo modelo e conjuntos de dados diferentes.

Boa sorte.

Meth
fonte
Bem, considerando que a matriz de covariância precisa ser definida positivamente, não me parece lógico usar qualquer distribuição de proposta. As matrizes propostas precisam ser definidas positivamente. Uma opção seria ter como proposta o condicional posterior de Wishart usado na amostragem de Gibbs, no entanto, isso não pareceu funcionar particularmente bem quando assumi o t-student pelos efeitos aleatórios. Daí a minha pergunta, existem outros tipos de propostas para matrizes de covariância?
Toka Stall