Quando o MCMC é útil?

12

Estou com problemas para entender em que situação a abordagem do MCMC é realmente útil. Estou passando por um exemplo de brinquedo do livro de Kruschke "Fazendo análise de dados bayesiana: um tutorial com R e BUGS".

O que eu entendi até agora é que precisamos de uma distribuição de destino proporcional a para obter uma amostra de . No entanto, parece-me que, uma vez que temos , precisamos apenas normalizar a distribuição para obter a posterior, e o fator de normalização pode ser facilmente encontrado numericamente. Então, quais são os casos em que isso não é possível?p(D|θ)p(θ)P(θ|D)p(D|θ)p(θ)

Vaaal
fonte
2
Suponha que não seja escalar, mas sim um vetor com 10000 dimensões. θθθ
Jan Galkowski
1
Minha resposta foi um pouco concisa. Para obter a constante, é necessário calcular . Mesmo no caso escalar, suponha que seja realmente instável, portanto é difícil fazer a integração, mesmo numericamente. Então você pode querer usar o MCMC. p ( D | θ )p(D|θ)p(θ)p(D|θ)
Jan Galkowski
2
Uma palavra de cautela de Alan Sokal: "Monte Carlo é um método extremamente ruim; deve ser usado apenas quando todos os métodos alternativos são piores". Então ele inicia uma longa discussão sobre os métodos de MC. stat.unc.edu/faculty/cji/Sokal.pdf
Yair Daon
1
@Yair: Parece-me que Sokal está canalizando Churchill.
cardeal
1
Quando nada mais vai funcionar ...
b Kjetil Halvorsen

Respostas:

10

A integração de Monte Carlo é uma forma de integração numérica que pode ser muito mais eficiente do que, por exemplo, integração numérica, aproximando o integrando de polinômios. Isto é especialmente verdade em altas dimensões, onde técnicas simples de integração numérica requerem um grande número de avaliações de funções. Para calcular a constante de normalizaçãop(D) , poderíamos usar amostragem importante ,

p(D)=q(θ)q(θ)p(θ)p(Dθ)dθ1Nnwnp(θn)p(Dθn),

onde e são amostrados de . Observe que precisamos apenas avaliar a distribuição conjunta nos pontos amostrados. Para o certo , esse estimador pode ser muito eficiente no sentido de exigir muito poucas amostras. Na prática, escolher um apropriadoθ n q q qwn=1/q(θn)θnqqq pode ser difícil, mas é aqui que o MCMC pode ajudar! A amostragem de importância recozida (Neal, 1998) combina o MCMC com a amostragem de importância.

Outra razão pela qual o MCMC é útil é o seguinte: geralmente não estamos tão interessados ​​na densidade posterior de , mas nas estatísticas e expectativas resumidasθ , por exemplo,

p(θD)f(θ)dθ.

Saber p(D) geralmente não significa que podemos resolver essa integral, mas as amostras são uma maneira muito conveniente de estimar.

Finalmente, poder avaliar é um requisito para alguns métodos de MCMC, mas não para todos eles (por exemplo, Murray et al., 2006 ).p(Dθ)p(θ)

Lucas
fonte
Desculpe, mas isso ainda não está claro para mim. Minha pergunta é: se multiplicarmos , obteremos um pdf não normalizado. Ao executar o MCMC, obtemos uma amostra para a qual podemos estimar o pdf não normalizado. Se quisermos, poderíamos normalizar os dois. Então, supondo que eu não esteja interessado em nenhuma estatística resumida, mas apenas nos posteriores, por que usamos o MCMC em primeiro lugar? Como você disse, alguns métodos do MCMC não requerem o cálculo de , portanto, não estou me referindo a eles. Até onde eu sei, a maioria deles exige o cálculo disso. Qual é a utilidade desses métodos? p ( D | θ ) p ( θ )p(D|θ)p(θ)p(D|θ)p(θ)
Vaaal
2
Ao executar o MCMC, você obtém uma amostra do pdf normalizado, portanto, evite calcular a constante de normalização. E isso é de graça.
Xi'an
2
@ Vaaal: Sua suposição de que "o fator de normalização pode ser facilmente encontrado numericamente" vale apenas para distribuições univariadas simples. Para alta dimensão , normalizar é geralmente extremamente difícil. Nesse caso, o MCMC ainda pode ser usado para estimar a constante de normalização (por exemplo, através de amostragem de importância recozida). p ( D θ ) p ( θ )θp(Dθ)p(θ)
10243 Lucas
6

Quando você recebe um e uma probabilidade que não são computáveis ​​na forma fechada ou que a distribuição posterior não é de um tipo padrão, não é possível simular diretamente desse alvo em direção a uma aproximação de Monte Carlo da distribuição posterior. Um exemplo típico é feito de modelos hierárquicos com anteriores não conjugados, como os encontrados no livro BUGS .f ( x | θ ) p ( θ | x ) p ( θ ) f ( x | θ )p(θ)f(x|θ)

p(θ|x)p(θ)f(x|θ)

Os métodos de simulação indireta, como as técnicas de aceitação-rejeição, proporção de uniforme ou amostragem de importância, costumam ter dificuldades numéricas e de precisão quando a dimensão do parâmetro aumenta além de algumas unidades.θ

Pelo contrário, os métodos de Monte Carlo da cadeia de Markov são mais adaptáveis ​​a grandes dimensões, pois podem explorar a distribuição posterior localmente, ou seja, em uma vizinhança do valor atual e em um número menor de componentes, ou seja, em subespaços. Por exemplo, o amostrador Gibbs valida a noção de que simular a partir de um alvo unidimensional por vez, ou seja, as distribuições condicionais completas associadas a , é suficiente para obter a simulação do verdadeiro posterior a longo prazo.p(θ|x)

Os métodos Monte Carlo da cadeia de Markov também têm um certo grau de universalidade, pois algoritmos como o algoritmo Metropolis-Hastings estão formalmente disponíveis para qualquer distribuição posterior que pode ser calculada até uma constante.p(θ|x)

Nos casos em que não pode ser facilmente calculado, existem alternativas, completando essa distribuição em uma distribuição gerenciável em um espaço maior, como em ou através de métodos não-markovianos como ABC .p(θ)f(x|θ)

p(θ)f(x|θ)g(z|θ,x)p(θ)f(x|θ)dz

Os métodos MCMC deram um alcance muito mais amplo aos métodos bayesianos, como ilustrado pelo aumento que se seguiu à popularização do método por Alan Gelfand e Adrian Smith em 1990.

Xi'an
fonte
O link para O LIVRO DE BUGS não está mais funcionando.
HelloWorld