Taxas de aceitação para Metropolis-Hastings com distribuição uniforme de candidatos

9

Ao executar o algoritmo Metropolis-Hastings com distribuições uniformes de candidatos, qual é a lógica de ter taxas de aceitação em torno de 20%?

Meu pensamento é: uma vez que os valores dos parâmetros true (ou quase true) sejam descobertos, nenhum novo conjunto de valores de parâmetros candidatos do mesmo intervalo uniforme aumentaria o valor da função de probabilidade. Portanto, quanto mais iterações eu executar, menores as taxas de aceitação que devo obter.

Onde estou errado nesse pensamento? Muito Obrigado!

Aqui está a ilustração dos meus cálculos:

Acceptance_rate=exp{l(θc|y)+log(p(θc))[l(θ|y)+log(p(θ)]},

onde é a probabilidade do log.l

Como os candidatos são sempre retirados do mesmo intervalo uniforme,θ

p(θc)=p(θ).

Portanto, o cálculo da taxa de aceitação diminui para:

Acceptance_rate=exp{l(θc|y)[l(θ|y)]}

A regra de aceitação de é então a seguinte:θc

UAcceptance_rateU[0,1]

θ=θc,

θc[θmin,θmax]

auretaure
fonte
11
Alterei a formatação para melhor legibilidade, verifique se não mudei o significado original.
precisa saber é o seguinte

Respostas:

9

Acredito que a convergência fraca e o dimensionamento ideal dos algoritmos Metropolis de passeio aleatório de Roberts, Gelman e Gilks ​​são a fonte da taxa de aceitação ideal de 0,244.

O que o artigo mostra é que, sob certas suposições, é possível dimensionar o algoritmo de caminhada aleatória Metropolis-Hastings à medida que a dimensão do espaço vai para o infinito para obter uma difusão limitante para cada coordenada. No limite, a difusão pode ser vista como "mais eficiente" se a taxa de aceitação assumir o valor 0,244. Intuitivamente, é uma troca entre fazer muitas pequenas etapas aceitas e fazer muitas propostas grandes que são rejeitadas.

O algoritmo Metropolis-Hastings não é realmente um algoritmo de otimização, em contraste com o recozimento simulado. É um algoritmo que deve simular a partir da distribuição de destino, portanto, a probabilidade de aceitação não deve ser direcionada para 0.

NRH
fonte
9

Apenas para adicionar uma resposta por @NRH. A ideia geral segue o princípio Goldilocks :

  • Se os saltos são "muito grandes", a corrente fica presa;
  • Se os saltos são "muito pequenos", a corrente explora o espaço dos parâmetros muito mais lentamente;
  • Queremos que os saltos estejam certos.

Obviamente, a questão é: o que queremos dizer com "exatamente correto". Essencialmente, para um caso específico, eles minimizam a distância esperada do salto quadrado. Isso é equivalente a minimizar as autocorrelações lag-1. Recentemente, Sherlock e Roberts mostraram que a mágica 0,244 vale para outras distribuições de destino:

C. Sherlock, G. Roberts (2009); Escalabilidade ideal do Metropolis de passeio aleatório em alvos unimodais elipticamente simétricos ; Bernoulli 15 (3)

csgillespie
fonte
11
(+1) Obrigado por essa referência. Aqui está outra referência mostrando que 0,244 não é a história completa.
NRH 22/06
2

Estou adicionando isso como resposta, porque não tenho reputação suficiente para comentar sobre a pergunta. Eu acho que você está confuso entre taxa de aceitação e taxa de aceitação .

  1. A taxa de aceitação é usada para decidir se aceita ou rejeita um candidato. A proporção que você está chamando de taxa de aceitação é na verdade chamada taxa de aceitação e é diferente da taxa de aceitação.
  2. Taxa de aceitação é a taxa de aceitação de candidatos. É a razão entre o número de valores exclusivos na cadeia MCMC e o número total de valores na cadeia MCMC.

Agora, sua dúvida de que a taxa de aceitação ideal é de 20% é realmente sobre a taxa de aceitação real, não a taxa de aceitação. A resposta é dada nas outras respostas. Eu só queria apontar a confusão que você está tendo.

Safwan
fonte
11
Isso parece uma resposta suficiente para mim. Bem-vindo ao site, @MusafitSafwan. Como você é novo por aqui, convém fazer um tour , com informações para novos usuários.
gung - Restabelece Monica