Amostragem de Gibbs versus MH-MCMC geral

20

Acabei de ler sobre a amostragem de Gibbs e o algoritmo Metropolis Hastings e tenho algumas perguntas.

Pelo que entendi, no caso da amostragem de Gibbs, se tivermos um grande problema multivariado, coletamos amostras da distribuição condicional, ou seja, amostramos uma variável enquanto mantemos todas as outras fixas, enquanto no MH, coletamos amostras da distribuição conjunta completa.

Uma coisa que o documento disse foi que a amostra proposta é sempre aceita na Gibbs Sampling, ou seja, a taxa de aceitação da proposta é sempre 1. Para mim, isso parece uma grande vantagem, pois para grandes problemas multivariados, parece que a taxa de rejeição do algoritmo MH se torna bastante grande. . Se esse é realmente o caso, qual é a razão por trás de não usar o Gibbs Sampler o tempo todo para gerar a distribuição posterior?

Luca
fonte
11
Uma proposta de MH multivariada bem construída pode superar em muito a amostragem de Gibbs, mesmo quando é possível a amostragem a partir dos condicionais (por exemplo, normal multivariada de alta dimensão, o HMC vence Gibbs por uma ampla margem quando as variáveis ​​são altamente correlacionadas). Isso ocorre porque a amostragem de Gibbs não permite que as variáveis ​​evoluam em conjunto. É meio análogo otimizar uma função otimizando iterativamente os argumentos individuais - você pode fazer melhor se otimizar todos os argumentos em conjunto, em vez de cada um em sucessão, mesmo que seja mais fácil fazê-lo.
cara
Metropolis-Hastings pode provar usando propostas para um condicional. Você está se referindo a um tipo específico de SM?
Glen_b -Reinstar Monica
1
Obrigado pelo comentário. Não, eu estava pensando em geral por que o Gibbs Sampler não é usado com mais frequência. havia perdido o fato de que a forma de distribuição condicional deve ser conhecida a priori para a amostragem de Gibbs. Para minhas necessidades atuais, parece que uma combinação funciona melhor. Portanto, use uma etapa MH para um subconjunto dos parâmetros enquanto mantém os outros constantes e, em seguida, use Gibbs para o outro subconjunto (onde os condicionais são fáceis de avaliar analiticamente). Estou apenas começando isso, então ainda não estou ciente de vários tipos de MH. Qualquer conselhos sobre que é apreciado :-)
Luca

Respostas:

12

a principal lógica por trás do uso do algoritmo Metropolis reside no fato de que você pode usá-lo mesmo quando o posterior resultante é desconhecido. Para amostragem de Gibbs, você precisa conhecer as distribuições posteriores das quais você extrai as variáveis.

user3777456
fonte
1
Obrigado pela resposta! Assim, com GS, a idéia é que os condicionais são distribuições mais simples, que podem ser amostradas facilmente, enquanto a distribuição conjunta, embora conhecida, pode ser uma distribuição complicada e difícil de amostrar?
Luca
2
Sim isso é verdade. Muitas vezes, no entanto, a amostragem de Gibbs e o Metropolis estão sendo usados ​​em conjunto. Portanto, o condicionamento de algumas variáveis ​​pode fornecer uma posterior de forma fechada, enquanto para outras isso não é possível e você deve usar um "passo da metrópole". Nesse caso, você deve decidir por qual tipo de amostrador do Metropolis (independência, caminhada aleatória) você escolhe e que tipo de densidade de proposta você usa. Mas acho que isso vai longe demais e você deve ler essas coisas primeiro.
user3777456
3

A amostragem de Gibbs quebra a maldição da dimensionalidade na amostragem, pois você dividiu o espaço de parâmetro (possivelmente de alta dimensão) em várias etapas de baixa dimensão. Metropolis-Hastings alivia alguns dos problemas dimensionais das técnicas de amostragem por rejeição de geração, mas você ainda está amostrando a partir de uma distribuição multivariável completa (e decidindo aceitar / rejeitar a amostra), o que faz com que o algoritmo sofra com a maldição da dimensionalidade.

Pense nisso desta maneira simplificada: é muito mais fácil propor uma atualização para uma variável de cada vez (Gibbs) do que todas as variáveis ​​simultaneamente (Metropolis Hastings).

Com isso dito, a dimensionalidade do espaço dos parâmetros ainda afetará a convergência em Gibbs e Metropolis Hastings, uma vez que existem mais parâmetros que potencialmente não poderiam convergir.

Gibbs também é legal porque cada etapa do loop de Gibbs pode estar na forma fechada. Esse é geralmente o caso em modelos hierárquicos em que cada parâmetro é condicionado apenas a alguns outros. Geralmente, é bastante simples construir seu modelo para que cada etapa de Gibbs esteja na forma fechada (quando cada etapa é conjugada, às vezes é chamada de "semi-conjugado"). Isso é bom porque você está coletando amostras de distribuições conhecidas, que geralmente podem ser muito rápidas.

TrynnaDoStat
fonte
"A amostragem de Gibbs quebra a maldição da dimensionalidade na amostragem": na verdade, a amostragem de Gibbs tende a ser muito pior do que algo como Metropolis Hastings com uma matriz de covariância proposta adaptativa.
Cliff AB