No algoritmo Metropolis – Hastings para amostragem de uma distribuição de destino, deixe:
- seja a densidade alvo no estado ,
- é a densidade alvo no estado proposto ,
- é a densidade proposta para a transição para o estado dado o estado atual ,
- é a probabilidade de aceitação do estado proposto dado o estado atual .
Se for simétrico, ou seja, , então: h i j = h j i a i j = min ( 1 , π j
Quando é uma distribuição gaussiana centrada no estado tem a mesma variância para todo , é simétrico. Da Wikipedia : i σ 2 i h
Se for muito grande, quase todas as etapas do algoritmo MH serão rejeitadas. Por outro lado, se for muito pequeno, quase todas as etapas serão aceitas.σ 2
Eu me pergunto por que a probabilidade de aceitação muda na direção inversa da mudança de variação da densidade da proposta, conforme mencionado na citação acima?
Respostas:
Para conseguir isso e simplificar as coisas, sempre penso primeiro em apenas um parâmetro com distribuição a priori uniforme (de longo alcance), de modo que, neste caso, a estimativa MAP do parâmetro seja a mesma do MLE . No entanto, suponha que sua função de probabilidade seja complicada o suficiente para ter vários máximos locais.
O que o MCMC faz neste exemplo em 1-D é explorar a curva posterior até encontrar valores de probabilidade máxima. Se a variação for muito curta, você certamente ficará preso aos máximos locais, porque sempre terá valores de amostragem próximos: o algoritmo MCMC "pensará" que está preso na distribuição de destino. No entanto, se a variação for muito grande, quando você ficar preso em um máximo local, você rejeitará mais ou menos valores até encontrar outras regiões com probabilidade máxima. Se você propor o valor no MAP (ou uma região similar de probabilidade máxima local maior que as outras), com uma grande variação, você acabará rejeitando quase todos os outros valores: a diferença entre essa região e as outras será muito grande.
Obviamente, todos os itens acima afetarão a taxa de convergência e não a convergência "per se" de suas cadeias. Lembre-se de que, independentemente da variação, desde que a probabilidade de selecionar o valor dessa região máxima global seja positiva, sua cadeia convergirá.
Para contornar esse problema, no entanto, o que se pode fazer é propor diferentes variações em um período de queima para cada parâmetro e visar a determinadas taxas de aceitação que possam satisfazer suas necessidades (por exemplo , , consulte Gelman, Roberts & Gilks, 1995 e Gelman, Gilks e Roberts, 19970,44 para aprender mais sobre a questão de selecionar uma taxa de aceitação "boa" que, é claro, depende da forma de sua distribuição posterior). É claro que, neste caso, a cadeia não é markoviana, portanto você NÃO precisa usá-las como inferência: basta usá-las para ajustar a variação.
fonte
Existem duas suposições básicas que levam a esse relacionamento:
Vamos considerar o caso "pequeno " primeiro. Seja x i o estado atual da cadeia de Markov ex x j ∼ N ( x i , σ 2 ) seja o estado proposto. Como σ 2 é muito pequeno, podemos ter certeza de que x j ≈ x i . Combinando isso com nossa primeira suposição, vemos que π ( x j ) ≈ π ( x i ) e, portanto, π ( x j )σ2 xEu xj∼ N( xEu, σ2) σ2 xj≈ xEu π( xj) ≈ π( xEu) .π( xj)π( xEu)≈ 1
Essas duas suposições são verdadeiras para a maioria das distribuições em que provavelmente estamos interessados; portanto, essa relação entre a largura da proposta e a taxa de aceitação é uma ferramenta útil para entender o comportamento dos amostradores de MH.
fonte