Qual é a diferença entre as amostragens de Metropolis Hastings, Gibbs, Importance e Rejection?

36

Eu tenho tentado aprender métodos do MCMC e me deparei com amostragens de Metropolis Hastings, Gibbs, Importance e Rejection. Embora algumas dessas diferenças sejam óbvias, ou seja, como Gibbs é um caso especial de Metropolis Hastings quando temos todos os condicionais, outras são menos óbvias, como quando queremos usar MH em um amostrador de Gibbs, etc. Alguém tem um maneira simples de ver a maior parte das diferenças entre cada uma delas? Obrigado!

user1398057
fonte
3
Iain Murray trata bem disso em sua palestra , pelo menos no que diz respeito ao MCMC.
gwr
2
Eu concordo com Xi'an que esta é uma questão muito ampla; você está efetivamente pedindo uma quantidade enorme de informações sobre quatro coisas diferentes, uma discussão sobre qualquer uma delas (ou um contraste entre duas) que daria uma resposta um tanto demorada. Podemos chegar a um ponto de focar a questão observando que, embora todos os quatro sejam métodos de Monte Carlo, a amostragem Importante e a amostragem por rejeição não são MCMC (isso não significa que não possam ser usadas no MCMC).
Glen_b -Reinstala Monica

Respostas:

47

Conforme detalhado em nosso livro com os métodos estatísticos de George Casella, Monte Carlo , esses métodos são usados ​​para produzir amostras de uma determinada distribuição, com densidade , por exemplo, para ter uma idéia sobre essa distribuição ou para resolver um problema de integração ou otimização relacionado a . Por exemplo, para encontrar o valor de ou o modo da distribuição de quando X f ( x ) ou um quantil dessa distribuição.ff

Xh(x)f(x)dxh(X)R
h(X)Xf(x)

Para comparar os métodos de Monte Carlo da cadeia de Monte Carlo e Markov mencionados em critérios relevantes, é necessário definir o plano de fundo do problema e os objetivos do experimento de simulação, uma vez que os prós e contras de cada um variarão de caso para caso.

Aqui estão algumas observações genéricas que certamente não cobrem a complexidade do problema :

  1. Os métodos de aceitação e rejeição destinam-se a fornecer uma amostra de iid de . Para conseguir isso, projeta-se um algoritmo que recebe como entrada um número aleatório de variáveis ​​uniformes u 1 , u 2 , ... e retorna um valor x que é uma realização de f . Os profissionais são que não há aproximação no método: o resultado é realmente uma amostra de iid de f . Os contras são muitos: (i) projetar o algoritmo encontrando um envelope de ffu1,u2,xfffque pode ser gerado pode ser muito caro no tempo humano; (ii) o algoritmo pode ser ineficiente no tempo de computação, ou seja, requer muitos uniformes para produzir um único ; (iii) aqueles desempenhos estão a diminuir com a dimensão de X . Em resumo, esses métodos não podem ser usados ​​para simular uma ou algumas simulações de f, a menos que já estejam disponíveis em uma linguagem de computador como R.xXf
  2. Os métodos Monte Carlo da cadeia de Markov (MCMC) são extensões dos métodos de simulação iid quando a simulação é muito cara. Eles produzem uma sequência de simulações cuja distribuição limitadora é a distribuição f . Os profissionais são que: (i) são necessárias menos informações sobre f para implementar o método; (ii) f pode ser conhecida apenas até uma constante de normalização ou mesmo como um integrante f ( x ) ct Z ~ f ( x , z ) d z(xt)tfff
    f(x)Zf~(x,z)dz
    e ainda estar associado a um método MCMC; (iii) existem algoritmos genéricos do MCMC para produzir simulações que requerem muito pouca calibração; (iv) dimensão é menos problemática, pois os alvos de grandes dimensões podem ser divididos em condicionais de menor dimensão (como na amostra de Gibbs). Os contras são que (i) as simulações ( x t ) t são correlacionadas, portanto menos informativas que as simulações de iid; (ii) a validação do método é apenas assintótica, portanto, há uma aproximação em considerar x t para um t fixo como uma realização de f ; iii) convergência para(xt)t(xt)txttf (em t ) pode ser tão lento que, para todos os fins práticos,o algoritmo não converge; (iv) a validação universal do método significa que há um número infinito de implementações potenciais, com uma faixa igualmente infinita de eficiências.ft
  3. Os métodos de amostragem de importância são originalmente projetados para aproximações integrais, ou seja, gerando a partir do alvo errado e compensando por um peso importante f ( x ) / g ( x )g(x)
    f(x)/g(x).
    gfggf

I=Xh(x)f(x)dx,
I^=Xh(x)f(x)dx
f
Xi'an
fonte
f
Eu só estava me perguntando o que h(x)significa isso concretamente h(x)f(x)dx, em um cenário de análise bayesiano. Estamos tentando obter o posterior, dados o anterior e os dados. No entanto, parece que com todos esses métodos de amostragem estamos tentando aproximar f(x). Então, pode-se dizer que f(x)já é o posterior que estamos procurando, e h(x)é apenas uma função arbitrária que também podemos colocar junto com o posterior f(x)? Ou não entendi direito. Obrigado.
Xji
Xh(x)f(x)dx
fh