Limitações do MCMC / EM? MCMC sobre EM?

9

Atualmente, estou aprendendo modelos bayesianos hierárquicos usando JAGS de R e também pymc usando Python ( "Métodos Bayesianos para Hackers" ).

Posso obter alguma intuição neste post : "você terminará com uma pilha de números que parece" como se "você tivesse conseguido, de alguma maneira, colher amostras independentes da complicada distribuição que queria conhecer". É algo como eu posso dar a probabilidade condicional, então posso gerar um processo sem memória com base na probabilidade condicional. Quando eu gero o processo por tempo suficiente, a probabilidade conjunta pode convergir. E então eu posso pegar uma pilha de números no final da sequência gerada. É como se eu coletasse amostras independentes da complicada distribuição conjunta. Por exemplo, eu posso criar um histograma e ele pode aproximar a função de distribuição.

Então, meu problema é: preciso provar se um MCMC converge para um determinado modelo? Estou motivado a saber disso porque aprendi anteriormente o algoritmo EM para GMM e LDA (modelos gráficos). Se eu puder apenas usar o algoritmo MCMC sem provar se converge, ele poderá economizar muito mais tempo que o EM. Como terei que calcular a função de probabilidade de log esperada (terá que calcular a probabilidade posterior) e, em seguida, maximizar a probabilidade de log esperada. Aparentemente, é mais complicado do que o MCMC (só preciso formular a probabilidade condicional).

Também estou me perguntando se a função de probabilidade e a distribuição anterior são conjugadas. Isso significa que o MCMC deve convergir? Estou pensando nas limitações do MCMC e do EM.

DQ_happy
fonte
2
O MCMC converge como por definição. Em vez disso, prove que você diagnostica a convergência para verificar se o seu modelo convergiu, por exemplo, math.pku.edu.cn/teachers/xirb/Courses/QR2013/ReadingForFinal/… ou people.fas.harvard.edu/~plam/teaching/methods / convergence /…n
Tim
3
O EM é mais rápido, não é bayesiano (nem todo mundo adora estatísticas bayesianas) e, em alguns casos, possui menos problemas de identificabilidade (converge para um único valor máximo, enquanto que com a abordagem MCMC você tem uma distribuição inteira que pode ser mais complicada do que estimar pontos) ) etc.
Tim
2
O EM é usado para máxima probabilidade ou estimativa máxima a posteriori, mas foi inicialmente descrito como algoritmo de ML e é comumente usado na abordagem de ML (consulte en.wikipedia.org/wiki/… ).
Tim
11
Mesmo se você usar EM para estimativa de MAP em vez de ML, não é bayesiano para mim, porque tenta caracterizar a distribuição posterior, mas apenas fornece o modo local dela.
Luca
11
Para mim, o uso do EM não é bayesiano porque fornece uma estimativa pontual dos seus parâmetros de interesse e não quantifica a distribuição posterior completa. Tanto no EM como no MCMC, pode-se ter um modelo probabilístico completo com variáveis ​​aleatórias anteriores, latentes e observadas, mas a inferência é diferente. O MCMC visa caracterizar a distribuição posterior completa, enquanto EM fornece não transmite as informações da distribuição posterior completa. Para mim, um bayesiano é alguém que usa a distribuição posterior para a tomada de decisões. No entanto, isso pode ser simplista. Eu também estou aprendendo essas coisas.
Luca

Respostas:

13

O EM é uma técnica de otimização: dada a probabilidade de variáveis ​​latentes úteis, ele retorna um máximo local, que pode ser um máximo global, dependendo do valor inicial.

O MCMC é um método de simulação: dada uma probabilidade com ou sem variáveis ​​latentes e, anteriormente, produz uma amostra que é aproximadamente distribuída a partir da distribuição posterior. Os primeiros valores dessa amostra geralmente dependem do valor inicial, o que significa que eles geralmente são descartados como estágio de queima (ou aquecimento).

Quando esta amostra é usada para avaliar integrais associadas à distribuição posterior [a grande maioria dos casos], as propriedades de convergência são essencialmente as mesmas que as de uma aproximação de iid Monte Carlo, em virtude do teorema ergódico.

(xt,,xt+T)π(x|D)

Xi'an
fonte