Esclarecimento da Maximização de Expectativas

11

Achei um tutorial muito útil sobre o algoritmo EM .

O exemplo e a imagem do tutorial são simplesmente brilhantes.

insira a descrição da imagem aqui

Pergunta relacionada sobre como calcular probabilidades como funciona a maximização de expectativas?

Eu tenho outra pergunta sobre como conectar a teoria descrita no tutorial ao exemplo.

Durante a etapa E, EM escolhe uma função que limita os limites todos os lugares e para a qual .gtlogP(x;Θ)gt(Θ^(t))=logP(x;Θ^(t))

Então, qual é o em nosso exemplo, e parece que deve ser diferente para cada iteração.gt

Além disso, no exemplo e depois aplicando-os aos dados que obtemosΘ^A(0)=0.6Θ^B(0)=0.5Θ^A(1)=0.71Θ^B(1)=0.58Θ^(0)Θ^(1)

Q(z)Q(z)=P(z|x;Θ)

Obrigado.

user16168
fonte

Respostas:

1

Achei essas anotações muito úteis para descobrir o que estava acontecendo no material suplementar.

Vou responder a essas perguntas um pouco fora de ordem para continuidade.


Primeiro: por que isso

θ(0)θ(1)

g0log(P(x;θ))θ(0)θ(1)g0θ


Segundo: por que a desigualdade é estreita quando

Q(z)=P(z|x;θ)

Há uma dica nas notas de rodapé sobre isso, onde diz:

y=E[y]

QP(x,z;θ)Q(z)

P(x,z;θ)=P(z|x;θ)P(x;θ)

o que torna nossa fração

P(z|x;θ)P(x;θ)P(z|x;θ)=P(x;θ)

P(x;θ)zC

log(zQ(z)C)zQ(z)log(C)

Q(z)


gt

A resposta dada nas notas que vinculei é um pouco diferente da das notas complementares, mas elas diferem apenas por uma constante e estamos maximizando-a para que não tenha conseqüências. O que está nas notas (com derivação) é:

gt(θ)=log(P(x|θ(t)))+zP(z|x;θ(t))log(P(x|z;θ)P(z|θ)P(z|x;θ(t))P(x|θ(t)))

Essa fórmula complexa não é mencionada detalhadamente nas notas suplementares, provavelmente porque muitos desses termos serão constantes que são descartadas quando maximizamos. Se você está interessado em saber como chegamos aqui, recomendo as anotações que vinculei.

gt(θ(t))gt(θ(t))=logP(x|θ(t))

Mike
fonte