Relação entre Bayes variacional e EM

Li em algum lugar que o método Variational Bayes é uma generalização do algoritmo EM. De fato, as partes iterativas dos algoritmos são muito semelhantes. Para testar se o algoritmo EM é uma versão especial do Variational Bayes, tentei o seguinte:

$Y$ são dados, é a coleção de variáveis latentes e é os parâmetros. Em Bayes Variacionais, podemos fazer uma aproximação tal que . Onde são distribuições simples e tratáveis. $X$ $\Theta$ $P(X,\Theta|Y) \approx Q_X(X)Q_\Theta(\Theta)$ $Q$
Como o algoritmo EM encontra uma estimativa de ponto MAP, pensei que Bayes Variacionais podem convergir para EM se eu usar uma Função Delta, de modo que: . é a primeira estimativa para os parâmetros, como geralmente é feito no EM. $Q^1_\Theta(\Theta)=\delta_{\Theta^1}(\Theta)$ $\Theta_1$
Quando é dado, que minimiza a divergência de KL é encontrado pela fórmula A fórmula acima simplifica para , essa etapa é equivalente à etapa de Expectativa do algoritmo EM! $Q^1_\Theta(\Theta)=\delta_{\Theta^1}(\Theta)$ $Q^1_X(X)$
$Q_{X}^{1} (X) = \frac{\exp (E_{δ_{Θ^{1}}} [\ln P (X, Y, Θ)])}{\int \exp (E_{δ_{Θ^{1}}} [\ln P (X, Y, Θ)]) d X}$ $Q^1_X(X)=\frac{\exp(E_{\delta_{\Theta^1}}[\ln P(X,Y,\Theta)])}{\int\exp(E_{\delta_{\Theta^1}}[\ln P(X,Y,\Theta)])dX}$ $Q^1_X(X)=P(X|\Theta^1,Y)$

Mas não posso derivar a etapa de maximização como a continuação disso. Na próxima etapa, precisamos calcular e, de acordo com a regra de iteração Variational Bayes, é: $Q^2_\Theta(\Theta)$

Q_{Θ}^{2} (Θ) = \frac{\exp (E_{P (X | Θ^{1}, Y)} [\ln P (X, Y, Θ)])}{\int \exp (E_{P (X | Θ^{1}, Y)} [\ln P (X, Y, Θ)]) d Θ}

$Q^2_\Theta(\Theta)=\frac{\exp(E_{P(X|\Theta^1,Y)}[\ln P(X,Y,\Theta)])}{\int\exp(E_{P(X|\Theta^1,Y)}[\ln P(X,Y,\Theta)])d\Theta}$

Os algoritmos VB e EM estão realmente conectados dessa maneira? Como podemos derivar o EM como um caso especial dos Bayes Variacionais, é minha abordagem verdadeira?

bayesian expectation-maximization variational-bayes Ufuk Can Bicici
fonte

Onde você leu que o algoritmo EM encontra uma estimativa MAP? A relação entre inferência variacional e EM ficará clara quando você entender a visão de EM apresentada neste artigo por Neal e Hinton (1998) . Veja também minha resposta aqui .

Lucas

Acho que aprendi o algoritmo EM da mesma maneira que este artigo explica, ele é visto como um problema de maximização de limite inferior. Usando a igualdade de Jensen e o Cálculo de variações, verifica-se que, na etapa da expectativa, é a distribuição que maximiza o limite inferior de e, na etapa de maximização, encontra-se , que é o máximo no limite inferior. Portanto, isso é semelhante ao Bayes Variacional. (E isso converge para um máximo local do posterior marginal, portanto, uma estimativa MAP)

P (X | Θ^{t}, Y)

$P(X|\Theta^t,Y)$

Θ^{t}

$\Theta^t$

Θ^{t + 1} = a r g m a x_{Θ} < \ln P (X, Y, Θ) >_{P (X | Θ^{t}, Y)}

$\Theta^{t+1} = arg max_{\Theta} <\ln P(X,Y,\Theta)>_{P(X|\Theta^t,Y)}$

Ufuk Can Bicici

Desculpas, não li sua pergunta com atenção suficiente. Acredito que o seu passo de maximização para calcular só é válido se você permitir qualquer distribuição, ou seja, se você apenas fizer a suposição de fatoração. Mas você também assumiu que é uma distribuição delta. Tente maximizar explicitamente o limite inferior em relação a , o parâmetro de .

Q_{Θ}^{2}

$Q_\Theta^2$

Q_{Θ}^{2}

$Q_\Theta^2$

Θ^{2}

$\Theta^2$

Q_{Θ}^{2} (Θ) = δ_{Θ^{2}} (Θ)

$Q_\Theta^2(\Theta) = \delta_{\Theta^2}(\Theta)$

Lucas

Encontrei na página 21 da apresentação cs.cmu.edu/~tom/10-702/Zoubin-702.pdf uma comparação de EM e VB foi mostrada, da mesma forma, usando a função Dirac. Mas como o VB reduz para EM não é dado.

Ufuk Can Bicici

Sua abordagem está correta. EM é equivalente a VB sob a restrição de que o posterior aproximado para é limitado a ser uma massa pontual. (Isso é mencionado sem provas na página 337 da Análise de dados bayesiana .) Seja o local desconhecido desta massa de pontos: VB será minimize a seguinte divergência de : O mínimo acima de fornece o passo E do EM, e o mínimo acima de fornece o passo M do EM. $\Theta$ $\Theta^*$

Q_{Θ} (Θ) = δ (Θ - Θ^{*})

$Q_\Theta(\Theta) = \delta(\Theta - \Theta^*)$

K L (Q | | P) = \int \int Q_{X} (X) Q_{Θ} (Θ) \ln \frac{Q_{X} (X) Q_{Θ} (Θ)}{P (X, Y, Θ)} d X d Θ = \int Q_{X} (X) \ln \frac{Q_{X} (X) Q_{Θ} (Θ^{*})}{P (X, Y, Θ^{*})} d X

$KL(Q||P)=\int \int Q_X(X) Q_\Theta(\Theta) \ln \frac{Q_X(X) Q_\Theta(\Theta)}{P(X,Y,\Theta)} dX d\Theta \\ = \int Q_X(X) \ln \frac{Q_X(X) Q_\Theta(\Theta^*)}{P(X,Y,\Theta^*)} dX$

Q_{X} (X)

$Q_X(X)$

Θ^{*}

$\Theta^*$

Obviamente, se você realmente avaliar a divergência de KL, seria infinita. Mas isso não é um problema se você considerar a função delta um limite.

Tom Minka
fonte

Tecnicamente, maximizando wrt corresponde à etapa M do MAP-EM (com ). - seção 3.1 do documento da VBEM

E_{Q_{x}} [\ln P (X, Y, Θ^{*})] = E_{Q_{x}} [\ln P (X, Y | Θ^{*})] + \ln P (Θ^{*})

$\mathbb{E}_{Q_x}[\ln P(X, Y, \Theta^*)] = \mathbb{E}_{Q_x}[\ln P(X, Y | \Theta^*)] + \ln P(\Theta^*)$

Θ^{*}

$\Theta^*$

P (Θ^{*})

$P(\Theta^*)$

Yibo Yang

Relação entre Bayes variacional e EM

Respostas: