O EM não é necessário em vez de usar alguma técnica numérica porque o EM também é um método numérico. Portanto, não é um substituto para Newton-Raphson. EM é para o caso específico em que faltam valores em sua matriz de dados. Considere-se uma amostra que tem densidade condicional F X | Θ ( x | θ ) . Então a probabilidade logarítmica disso é
l ( θ ; X ) = l o g f X | ΘX= ( X1, . . . , Xn)fX| Θ( x | θ )
Agora, suponha que você não tenha um conjunto de dados completo, de modo que X seja composto pelos dados observados Y epelasvariáveis ausentes (ou latentes) Z , de modo que X = ( Y , Z ) . Então a probabilidade logarítmica para os dados observados é
l o b s ( θ , Y ) = l o g ∫ f X | Θ ( Y , z | θ ) ν z (
l ( θ ; X) = l o gfX| Θ( X| θ)
XYZX= ( Y, Z)
Em geral, você não pode calcular esta integral diretamente e não obterá uma solução em forma fechada para
l o b s ( θ , Y ) . Para esse fim, você usa o método EM. Existem duas etapas que são iteradas por
i vezes. Nestaetapa
( i + 1 ) t h, estas são as etapas de expectativa em que você calcula
Q ( θ | θ ( i ) ) = E θ ( i ) [ l ( θeuo b s( θ , Y) = l o g∫fX| Θ( Y, z| θ) νz( dz)
euo b s( θ , Y)Eu( i + 1 )t h
onde
θ ( i ) é a estimativa de
Θ nopasso
i t h . Em seguida, calcule a etapa de maximização na qual você maximiza
Q ( θ | θ ( i ) ) em relação a
θ e define
θ ( i + 1 ) = m a x Q ( θ | θ i )Q ( θ | θ( I )) = Eθ( I )[ l ( θ ; X|Y]
θ( I )ΘEut hQ ( θ| θ( I ))θθ( i +1 )= m a x Q ( θ | θEu). Você repete essas etapas até o método convergir para algum valor que será sua estimativa.
Se você precisar de mais informações sobre o método, suas propriedades, provas ou aplicativos, consulte o artigo correspondente na Wiki .
O EM é usado porque geralmente é inviável ou impossível calcular diretamente os parâmetros de um modelo que maximiza a probabilidade de um conjunto de dados, dado esse modelo.
fonte