Eu entendo onde a etapa E acontece no algoritmo (conforme explicado na seção de matemática abaixo). Na minha opinião, a principal engenhosidade do algoritmo é o uso da desigualdade de Jensen para criar um limite inferior à probabilidade do log. Nesse sentido, aceitar isso Expectation
é simplesmente feito para reformular a probabilidade logarítmica de se encaixar na desigualdade de Jensen (ie para a função côncava.)
Existe uma razão para que o E-step seja chamado? Existe algum significado para o que estamos ? seja, ? Sinto que estou perdendo alguma intuição por que a Expectativa é tão central, em vez de simplesmente ser incidental ao uso da desigualdade de Jensen.
EDIT: Um tutorial diz:
O nome 'E-step' vem do fato de que geralmente não é necessário formar a distribuição de probabilidade sobre conclusões explicitamente, mas sim apenas computar estatísticas suficientes 'esperadas' sobre essas conclusões.
O que significa "normalmente não é necessário formar a distribuição de probabilidade sobre conclusões explicitamente"? Como seria essa distribuição de probabilidade?
Apêndice: Etapa E no algoritmo EM
fonte
Respostas:
As expectativas são centrais para o algoritmo EM. Para começar, a probabilidade associada aos dados é representada como uma expectativa onde a expectativa é em termos da distribuição marginal do vetor latente .p ( x 1 , … , x n ; θ )( x1, … , Xn) (z1,…,zn)
A intuição por trás do EM também se baseia em uma expectativa. Como não pode ser otimizado diretamente, enquanto pode, mas depende dos não observados , a idéia é maximizar a probabilidade completa de log esperada exceto que essa expectativa também depende de um valor , escolhido como , digamos, portanto, a função para maximizar (in ) na etapa M: log p ( , … , x n ] ( x 1 , … , x n , z 1 , … , z n ; θ ) |registrop ( x1, … , Xn; θ ) z i E θ θ 0 θ Q ( θ 0 , θ ) = E θ 0 [ log pregistrop ( x1, … , Xn, z1, … , Zn; θ ) zEu
fonte
A resposta de Xi'an é muito boa, apenas uma extensão referente à edição.
Como o valor de não é observado, estimamos uma distribuição para cada ponto de dados partir dos dados não observados. A função Q é a soma das probabilidades esperadas de log emq x ( z ) x q x ( z )z qx(z) x qx(z)
completions
O mencionadop(x,z|θ) Q(θ)
probability distribution over completions
deve se referir a . Para algumas distribuições (especialmente a família exponencial, já que a probabilidade está em sua forma logarítmica), precisamos apenas conhecer o esperado (em vez da probabilidade esperada) para calcular e maximizar .Q ( θ )sufficient statistics
Há uma introdução muito boa no capítulo 19.2 dos modelos gráficos probabilísticos.
fonte