Relação entre Bayes variacional e EM

26

Li em algum lugar que o método Variational Bayes é uma generalização do algoritmo EM. De fato, as partes iterativas dos algoritmos são muito semelhantes. Para testar se o algoritmo EM é uma versão especial do Variational Bayes, tentei o seguinte:

  1. Y são dados, é a coleção de variáveis ​​latentes e é os parâmetros. Em Bayes Variacionais, podemos fazer uma aproximação tal que . Onde são distribuições simples e tratáveis.XΘP(X,Θ|Y)QX(X)QΘ(Θ)Q

  2. Como o algoritmo EM encontra uma estimativa de ponto MAP, pensei que Bayes Variacionais podem convergir para EM se eu usar uma Função Delta, de modo que: . é a primeira estimativa para os parâmetros, como geralmente é feito no EM.QΘ1(Θ)=δΘ1(Θ)Θ1

  3. Quando é dado, que minimiza a divergência de KL é encontrado pela fórmula A fórmula acima simplifica para , essa etapa é equivalente à etapa de Expectativa do algoritmo EM!QΘ1(Θ)=δΘ1(Θ)QX1(X)

    QX1(X)=exp(EδΘ1[lnP(X,Y,Θ)])exp(EδΘ1[lnP(X,Y,Θ)])dX
    QX1(X)=P(X|Θ1,Y)

Mas não posso derivar a etapa de maximização como a continuação disso. Na próxima etapa, precisamos calcular e, de acordo com a regra de iteração Variational Bayes, é:QΘ2(Θ)

QΘ2(Θ)=exp(EP(X|Θ1,Y)[lnP(X,Y,Θ)])exp(EP(X|Θ1,Y)[lnP(X,Y,Θ)])dΘ

Os algoritmos VB e EM estão realmente conectados dessa maneira? Como podemos derivar o EM como um caso especial dos Bayes Variacionais, é minha abordagem verdadeira?

Ufuk Can Bicici
fonte
Onde você leu que o algoritmo EM encontra uma estimativa MAP? A relação entre inferência variacional e EM ficará clara quando você entender a visão de EM apresentada neste artigo por Neal e Hinton (1998) . Veja também minha resposta aqui .
Lucas
Acho que aprendi o algoritmo EM da mesma maneira que este artigo explica, ele é visto como um problema de maximização de limite inferior. Usando a igualdade de Jensen e o Cálculo de variações, verifica-se que, na etapa da expectativa, é a distribuição que maximiza o limite inferior de e, na etapa de maximização, encontra-se , que é o máximo no limite inferior. Portanto, isso é semelhante ao Bayes Variacional. (E isso converge para um máximo local do posterior marginal, portanto, uma estimativa MAP)P(X|Θt,Y)ΘtΘt+1=argmaxΘ<lnP(X,Y,Θ)>P(X|Θt,Y)
Ufuk Can Bicici
11
Desculpas, não li sua pergunta com atenção suficiente. Acredito que o seu passo de maximização para calcular só é válido se você permitir qualquer distribuição, ou seja, se você apenas fizer a suposição de fatoração. Mas você também assumiu que é uma distribuição delta. Tente maximizar explicitamente o limite inferior em relação a , o parâmetro de . QΘ2QΘ2Θ2QΘ2(Θ)=δΘ2(Θ)
Lucas
Encontrei na página 21 da apresentação cs.cmu.edu/~tom/10-702/Zoubin-702.pdf uma comparação de EM e VB foi mostrada, da mesma forma, usando a função Dirac. Mas como o VB reduz para EM não é dado.
Ufuk Can Bicici

Respostas:

20

Sua abordagem está correta. EM é equivalente a VB sob a restrição de que o posterior aproximado para é limitado a ser uma massa pontual. (Isso é mencionado sem provas na página 337 da Análise de dados bayesiana .) Seja o local desconhecido desta massa de pontos: VB será minimize a seguinte divergência de : O mínimo acima de fornece o passo E do EM, e o mínimo acima de fornece o passo M do EM. ΘΘ

QΘ(Θ)=δ(ΘΘ)
KL(Q||P)=QX(X)QΘ(Θ)lnQX(X)QΘ(Θ)P(X,Y,Θ)dXdΘ=QX(X)lnQX(X)QΘ(Θ)P(X,Y,Θ)dX
QX(X)Θ

Obviamente, se você realmente avaliar a divergência de KL, seria infinita. Mas isso não é um problema se você considerar a função delta um limite.

Tom Minka
fonte
Tecnicamente, maximizando wrt corresponde à etapa M do MAP-EM (com ). - seção 3.1 do documento da VBEMEQx[lnP(X,Y,Θ)]=EQx[lnP(X,Y|Θ)]+lnP(Θ)ΘP(Θ)
Yibo Yang