Atualmente, estou aprendendo modelos bayesianos hierárquicos usando JAGS de R e também pymc usando Python ( "Métodos Bayesianos para Hackers" ).
Posso obter alguma intuição neste post : "você terminará com uma pilha de números que parece" como se "você tivesse conseguido, de alguma maneira, colher amostras independentes da complicada distribuição que queria conhecer". É algo como eu posso dar a probabilidade condicional, então posso gerar um processo sem memória com base na probabilidade condicional. Quando eu gero o processo por tempo suficiente, a probabilidade conjunta pode convergir. E então eu posso pegar uma pilha de números no final da sequência gerada. É como se eu coletasse amostras independentes da complicada distribuição conjunta. Por exemplo, eu posso criar um histograma e ele pode aproximar a função de distribuição.
Então, meu problema é: preciso provar se um MCMC converge para um determinado modelo? Estou motivado a saber disso porque aprendi anteriormente o algoritmo EM para GMM e LDA (modelos gráficos). Se eu puder apenas usar o algoritmo MCMC sem provar se converge, ele poderá economizar muito mais tempo que o EM. Como terei que calcular a função de probabilidade de log esperada (terá que calcular a probabilidade posterior) e, em seguida, maximizar a probabilidade de log esperada. Aparentemente, é mais complicado do que o MCMC (só preciso formular a probabilidade condicional).
Também estou me perguntando se a função de probabilidade e a distribuição anterior são conjugadas. Isso significa que o MCMC deve convergir? Estou pensando nas limitações do MCMC e do EM.
fonte
Respostas:
O EM é uma técnica de otimização: dada a probabilidade de variáveis latentes úteis, ele retorna um máximo local, que pode ser um máximo global, dependendo do valor inicial.
O MCMC é um método de simulação: dada uma probabilidade com ou sem variáveis latentes e, anteriormente, produz uma amostra que é aproximadamente distribuída a partir da distribuição posterior. Os primeiros valores dessa amostra geralmente dependem do valor inicial, o que significa que eles geralmente são descartados como estágio de queima (ou aquecimento).
Quando esta amostra é usada para avaliar integrais associadas à distribuição posterior [a grande maioria dos casos], as propriedades de convergência são essencialmente as mesmas que as de uma aproximação de iid Monte Carlo, em virtude do teorema ergódico.
fonte