Exemplos de erros nos algoritmos MCMC

28

Estou investigando um método para verificação automática dos métodos Monte Carlo da cadeia de Markov e gostaria de alguns exemplos de erros que podem ocorrer ao construir ou implementar esses algoritmos. Pontos de bônus se o método incorreto foi usado em um artigo publicado.

Estou particularmente interessado nos casos em que o erro significa que a cadeia tem a distribuição invariável incorreta, embora outros tipos de erros (por exemplo, cadeia não ergódica) também sejam interessantes.

Um exemplo desse erro seria não gerar um valor quando Metropolis-Hastings rejeitar uma mudança proposta.

Simon Byrne
fonte
7
Um dos meus exemplos favoritos é o estimador de média harmônica, pois possui boas propriedades assintóticas, mas falha na prática. Radford Neal discute isso em seu blog: "A má notícia é que o número de pontos necessários para que esse estimador chegue perto da resposta certa geralmente será maior que o número de átomos no universo observável". Este método foi amplamente implementado em aplicativos.
3
Outra cortesia do Prof. Neal.
Cyan
5
@ Cyan Para Neal ser levado a sério, acho que ele deveria ter encontrado um periódico que aceitaria seu artigo, em vez de apenas enviá-lo na internet. Posso facilmente acreditar que ele está certo e que os árbitros e o autor estão incorretos. Embora seja difícil publicar artigos que contradigam os resultados publicados e a rejeição da JASA seja desencorajadora, acho que ele deveria ter tentado vários outros periódicos até conseguir. Você precisa de um árbitro independente e imparcial para dar credibilidade às suas descobertas.
Michael R. Chernick
4
Deve-se sempre levar o professor Neal a sério! ; o) Sério, é uma pena que resultados como esses sejam difíceis de serem publicados e, infelizmente, a cultura acadêmica moderna não parece valorizar esse tipo de coisa; portanto, é compreensível que não seja uma atividade de alta prioridade para ele. Pergunta interessante, estou muito interessado nas respostas.
Dikran Marsupial
6
@ Michael: Talvez. Tendo estado em todos os lados de situações semelhantes, inclusive na posição do Prof. Neal, em muitas ocasiões, minhas observações anedóticas são de que a rejeição de papel carrega muito, muito pouco conteúdo de informação na maioria dos casos, assim como muitas aceitações. A revisão por pares é uma ordem de magnitude mais barulhenta do que as pessoas querem admitir e, muitas vezes, como pode ser o caso aqui, existem partes e interesses parciais e interessados (isto é, não independentes) em jogo. Dito isto, não pretendia que meu comentário original nos levasse tão longe ao assunto em questão. obrigado por compartilhar seus pensamentos sobre o assunto.
cardeal

Respostas:

11

1. Estimador marginal de verossimilhança e média harmônica

A probabilidade marginal é definida como a constante de normalização da distribuição posterior

p(x)=Θp(x|θ)p(θ)dθ.

A importância dessa quantidade vem do papel que ela desempenha na comparação de modelos via fatores Bayes .

Vários métodos foram propostos para aproximar essa quantidade. Raftery et al. (2007) propõem o estimador de média harmônica , que rapidamente se tornou popular devido à sua simplicidade. A ideia consiste em usar a relação

1p(x)=Θp(θ|x)p(x|θ)dθ.

Portanto, se temos uma amostra a partir do posterior, dizer , esta quantidade pode ser aproximada pela(θ1,...,θN)

1p(x)1Nj=1N1p(x|θj).

Essa aproximação está relacionada ao conceito de amostragem por importância .

Pela lei de grandes números, como discutido no blog de Neal , temos que esse estimador seja consistente . O problema é que o necessário para uma boa aproximação pode ser enorme. Veja o blog de Neal ou o blog de Robert 1 , 2 , 3 , 4 para alguns exemplos.N

Alternativas

Existem muitas alternativas para aproximar . Chopin e Robert (2008) apresentam alguns métodos baseados em amostragem Importance.p(x)

2. Não executando o amostrador MCMC por tempo suficiente (especialmente na presença de multimodalidade)

Mendoza e Gutierrez-Peña (1999) deduzem a referência anterior / posterior para a razão de duas médias normais e apresentam um exemplo das inferências obtidas com este modelo usando um conjunto de dados reais. Usando métodos MCMC, eles obtêm uma amostra do tamanho da parte posterior da razão de médias φ que é mostrada abaixo2000φ

insira a descrição da imagem aqui

φ (0,63,5.29)0 00 0

insira a descrição da imagem aqui

(0 0,7,25)

3. Algumas outras questões , como a avaliação da convergência, a escolha dos valores iniciais, o mau comportamento da cadeia, podem ser encontradas nesta discussão por Gelman, Carlin e Neal.

4. Amostragem de Importância

g

Eu=f(x)dx=f(x)g(x)g(x)dx.

g(x1,...,xN)Eu

Eu1Nj=1Nf(xj)g(xj).

gfN

# Integrating a Student's t with 1 d.f. using a normal importance function   
x1 = rnorm(10000000)   # N=10,000,000
mean(dt(x1,df=1)/dnorm(x1))

# Now using a Student's t with 2 d.f. function
x2 = rt(1000,df=2)
mean(dt(x2,df=1)/dt(x2,df=2))

fonte
2
São alguns ótimos exemplos. Para quem está interessado, a carta ao editor com a figura está aqui: onlinelibrary.wiley.com/doi/10.1002/bimj.200800256/abstract
Simon Byrne
2
Resumo muito agradável e claro !! (+1)
gui11aume
12

Darren Wilkinson, em seu blog, fornece um exemplo detalhado de um erro comum na caminhada aleatória Metropolis-Hastings. Eu recomendo a leitura na íntegra, mas aqui está a versão tl; dr.

Se a distribuição de destino for positiva (como distribuições gama etc. ) em uma dimensão, é tentador rejeitar propostas que tenham um valor negativo nessa dimensão imediatamente. O erro é jogar fora as propostas como nunca aconteceram e avaliar a taxa de aceitação de Metropolis-Hastings (MH) apenas das outras. Isso é um erro, porque equivale a usar uma densidade de proposta não simétrica.

O autor sugere aplicar uma das duas correções.

  1. Conte os "negativos" como falha na aceitação (e perca um pouco de eficiência).

  2. Use a proporção correta de MH nesse caso, que é

π(x)π(x)Φ(x)Φ(x),

πΦϕ Φ(x)=0 0ϕ(y-x)dy

gui11aume
fonte
1
+1 exemplo interessante. Eu também estava pensando em outros problemas relacionados ao MH relacionados à taxa de aceitação. Eu acho que a taxa ideal de 0,244 foi exagerada.
@ Procrastinator, você conhece muito bem a literatura do MCMC. Esse é o seu domínio de especialização?
gui11aume
Obrigado por seu comentário. Eu gosto de estatísticas bayesianas, então preciso carregar a cruz do MCMC;).
1

Um caso muito claro (relacionado à aproximação de verossimilhança marginal mencionada na primeira resposta) em que a convergência verdadeira é o exemplo do problema da troca de etiquetas em modelos de mistura, juntamente com o uso do estimador de Chib (1995) . Como apontado por Radford Neal (1999), se a cadeia MCMC não convergir corretamente, no sentido de explorar parte do modo de distribuição de destino, a aproximação de Chib a Monte Carlo falha em atingir o valor numérico correto.

Xi'an
fonte