Achei essas anotações muito úteis para descobrir o que estava acontecendo no material suplementar.
Vou responder a essas perguntas um pouco fora de ordem para continuidade.
Primeiro: por que isso
θ(0)≠θ(1)
g0log(P(x;θ))θ(0)θ(1)g0θ
Segundo: por que a desigualdade é estreita quando
Q(z)=P(z|x;θ)
Há uma dica nas notas de rodapé sobre isso, onde diz:
y=E[y]
QP(x,z;θ)Q(z)
P(x,z;θ)=P(z|x;θ)P(x;θ)
o que torna nossa fração
P(z|x;θ)P(x;θ)P(z|x;θ)=P(x;θ)
P(x;θ)zC
log(∑zQ(z)C)≥∑zQ(z)log(C)
Q(z)
gt
A resposta dada nas notas que vinculei é um pouco diferente da das notas complementares, mas elas diferem apenas por uma constante e estamos maximizando-a para que não tenha conseqüências. O que está nas notas (com derivação) é:
gt(θ)=log(P(x|θ(t)))+∑zP(z|x;θ(t))log(P(x|z;θ)P(z|θ)P(z|x;θ(t))P(x|θ(t)))
Essa fórmula complexa não é mencionada detalhadamente nas notas suplementares, provavelmente porque muitos desses termos serão constantes que são descartadas quando maximizamos. Se você está interessado em saber como chegamos aqui, recomendo as anotações que vinculei.
gt(θ(t))gt(θ(t))=logP(x|θ(t))