O que está causando a autocorrelação no amostrador MCMC?

7

Ao executar uma análise bayesiana, uma coisa a verificar é a autocorrelação das amostras MCMC. Mas não entendo o que está causando essa autocorrelação.

Aqui , eles estão dizendo que

Amostras de alta autocorrelação [do MCMC] geralmente são causadas por fortes correlações entre variáveis.

  1. Gostaria de saber quais são as outras causas de amostras de alta autocorrelação no MCMC.

  2. Existe uma lista de itens a serem verificados quando a autocorrelação é observada em uma saída JAGS?

  3. Como podemos gerenciar a autocorrelação em uma análise bayesiana? Eu sei que alguns estão dizendo para emagrecer, mas outros estão dizendo que é ruim . A execução do modelo por um período mais longo é outra solução , infelizmente dispendiosa no tempo e ainda afetando, em alguns casos, o rastreamento das amostras no MCMC. Por que alguns algoritmos são muito mais eficazes em explorar e não serem correlacionados? Devemos mudar os valores iniciais da cadeia para começar?

M. Beausoleil
fonte

Respostas:

6

Ao usar os algoritmos de Monte Carlo da cadeia de Markov (MCMC) na análise bayesiana, geralmente o objetivo é amostrar a partir da distribuição posterior. Recorremos ao MCMC quando outras técnicas de amostragem independentes não são possíveis (como a amostragem por rejeição). O problema, porém, com o MCMC é que as amostras resultantes estão correlacionadas. Isso ocorre porque cada amostra subsequente é desenhada usando a amostra atual.

Existem dois métodos principais de amostragem MCMC: amostragem de Gibbs e algoritmo Metropolis-Hastings (MH).

  1. A autocorrelação nas amostras é afetada por muitas coisas. Por exemplo, ao usar algoritmos MH, você pode reduzir ou aumentar suas correlações automáticas, ajustando o tamanho da etapa da distribuição da proposta. Na amostragem de Gibbs, no entanto, não existe tal ajuste possível. A autocorrelação também é afetada pelos valores iniciais da cadeia de Markov. Geralmente, existe um valor inicial ótimo (desconhecido) que leva à comparativamente menos autocorrelação. A multi-modalidade da distribuição de destino também pode afetar bastante a autocorrelação das amostras. Portanto, existem atributos da distribuição de destino que podem definitivamente ditar a autocorrelação. Mas, na maioria das vezes, a autocorrelação é ditada pelo amostrador usado. Em termos gerais, se um amostrador MCMC pular mais o espaço de estados, provavelmente terá uma autocorrelação menor.
  2. Não estou familiarizado com o JAGS.
  3. Se você já optou pelo amostrador e não tem a opção de brincar com outros amostradores, a melhor opção seria fazer uma análise preliminar para encontrar bons valores iniciais e tamanhos de etapas. Geralmente, o desbaste não é sugerido, pois argumenta-se que jogar fora as amostras é menos eficiente do que usar amostras correlacionadas. Uma solução universal é executar o amostrador por um longo período, para que você tenha um Tamanho Efetivo da Amostra (ESS). Veja o Rpacote mcmcse aqui . Se você observar a vinheta na página 8, o autor propõe um cálculo das amostras efetivas mínimas necessárias para o processo de estimativa. Você pode encontrar esse número para o seu problema e deixar a cadeia de Markov funcionar até que você tenha muitas amostras efetivas .
Greenparker
fonte
3
Em relação ao desbaste, uma consideração prática é com quantas amostras é fácil trabalhar. Se você precisar coletar, digamos, 100 milhões de amostras, geralmente é conveniente (em termos de memória etc.) diminuir para manter, por exemplo, 10.000 amostras não correlacionadas em vez de precisar trabalhar com 100 milhões. Ser um pouco ineficiente com o desbaste (embora talvez até ganhe um pouco de conveniência prática) sempre pareceu um ponto relativamente menor para mim em comparação com todas as coisas estatísticas realmente ruins que as pessoas fazem.
Björn