Por que o algoritmo de maximização de expectativa é usado?

22

Pelo pouco que sei, o algoritmo EM pode ser usado para encontrar a máxima probabilidade ao zerar as derivadas parciais em relação aos parâmetros da probabilidade, fornecendo um conjunto de equações que não podem ser resolvidas analiticamente. Mas é necessário o algoritmo EM, em vez de usar alguma técnica numérica, para tentar encontrar o máximo de probabilidade com relação à restrição do conjunto de equações mencionado.

user782220
fonte

Respostas:

20

A pergunta é legítima e eu tive a mesma confusão quando aprendi o algoritmo EM.

Em termos gerais, o algoritmo EM define um processo iterativo que permite maximizar a função de probabilidade de um modelo paramétrico no caso em que algumas variáveis ​​do modelo são (ou são tratadas como) "latentes" ou desconhecidas.

Em teoria, com o mesmo objetivo, você pode usar um algoritmo de minimização para encontrar numericamente o máximo da função de probabilidade para todos os parâmetros. No entanto, em situação real, essa minimização seria:

  1. muito mais computacionalmente intensivo
  2. menos robusto

Uma aplicação muito comum do método EM é a montagem de um modelo de mistura. Nesse caso, considerando a variável que atribui cada amostra a um componente como variáveis ​​"latentes", o problema é bastante simplificado.

Vamos ver um exemplo. Temos N amostras extraídas de uma mistura de 2 distribuições normais. Para encontrar os parâmetros sem EM, devemos minimizar:s={si}

-registroeu(x,θ)=-registro[uma1exp((x-μ1)22σ12)+uma2exp((x-μ2)22σ22)]

Pelo contrário, usando o algoritmo EM, primeiro "atribuímos" cada amostra a um componente ( etapa E ) e depois ajustamos (ou maximizamos a probabilidade de) cada componente separadamente ( etapa M ). Neste exemplo, a etapa M é simplesmente uma média ponderada para encontrar e . A iteração nessas duas etapas é uma maneira mais simples e robusta de minimizar .σ k - logaritmo L ( x , θ )μkσk-registroeu(x,θ)

user2304916
fonte
12

O EM não é necessário em vez de usar alguma técnica numérica porque o EM também é um método numérico. Portanto, não é um substituto para Newton-Raphson. EM é para o caso específico em que faltam valores em sua matriz de dados. Considere-se uma amostra que tem densidade condicional F X | Θ ( x | θ ) . Então a probabilidade logarítmica disso é l ( θ ; X ) = l o g f X | ΘX=(X1,...,Xn)fX|Θ(x|θ) Agora, suponha que você não tenha um conjunto de dados completo, de modo que X seja composto pelos dados observados Y epelasvariáveis ​​ausentes (ou latentes) Z , de modo que X = ( Y , Z ) . Então a probabilidade logarítmica para os dados observados é l o b s ( θ , Y ) = l o g f X | Θ ( Y , z | θ ) ν z (

eu(θ;X)=euogfX|Θ(X|θ)
XYZX=(Y,Z) Em geral, você não pode calcular esta integral diretamente e não obterá uma solução em forma fechada para l o b s ( θ , Y ) . Para esse fim, você usa o método EM. Existem duas etapas que são iteradas por i vezes. Nestaetapa ( i + 1 ) t h, estas são as etapas de expectativa em que você calcula Q ( θ | θ ( i ) ) = E θ ( i ) [ l ( θ
euobs(θ,Y)=euogfX|Θ(Y,z|θ)νz(dz)
euobs(θ,Y)Eu(Eu+1)th onde θ ( i ) é a estimativa de Θ nopasso i t h . Em seguida, calcule a etapa de maximização na qual você maximiza Q ( θ | θ ( i ) ) em relação a θ e define θ ( i + 1 ) = m a x Q ( θ | θ i )
Q(θ|θ(Eu))=Eθ(Eu)[eu(θ;X|Y]
θ(Eu)ΘEuthQ(θ|θ(Eu))θθ(Eu+1)=mumaxQ(θ|θEu). Você repete essas etapas até o método convergir para algum valor que será sua estimativa.

Se você precisar de mais informações sobre o método, suas propriedades, provas ou aplicativos, consulte o artigo correspondente na Wiki .

Andy
fonte
1
+1 ... EM não é apenas para o caso de valores ausentes.
Glen_b -Reinstala Monica
@ Andy: Mesmo considerando o caso de dados ausentes, ainda não entendo por que usar métodos numéricos genéricos para encontrar um ponto em que as derivadas parciais são zero não funciona.
user782220
Graças Glen, eu só sabia no contexto de valores ausentes / variáveis ​​latentes. @ user782220: quando você não puder ter uma solução de formulário fechado da derivada de probabilidade de log, definir a derivada igual a zero não identificará seu parâmetro. É por isso que você usa métodos numéricos neste caso. Para uma explicação e um exemplo, veja a palestra aqui: people.stat.sfu.ca/~raltman/stat402/402L5.pdf
Andy
1

O EM é usado porque geralmente é inviável ou impossível calcular diretamente os parâmetros de um modelo que maximiza a probabilidade de um conjunto de dados, dado esse modelo.

TheGrimmScientist
fonte