Considere a probabilidade de log de uma mistura de gaussianos:
Fiquei me perguntando por que era computacionalmente difícil maximizar essa equação diretamente? Eu estava procurando por uma clara intuição sólida sobre por que deveria ser óbvio que é difícil ou talvez uma explicação mais rigorosa do por que é difícil. Esse problema está completo ou não sabemos ainda como resolvê-lo? É por isso que recorremos ao algoritmo EM ( maximização de expectativa )?
Notação:
= dados de treinamento.
= ponto de dados.
= o conjunto de parâmetros que especifica o Gaussiano, seus meios, desvios-padrão e a probabilidade de gerar um ponto de cada cluster / classe / Gaussiano.
= a probabilidade de gerar um ponto do cluster / classe / gaussiano i.
Além dos pontos de juampa, permitam-me sinalizar essas dificuldades:
tirado do meu livro .
Uma observação adicional: sem chamar o algoritmo EM, pode-se usar um algoritmo de otimização padrão (como Newton-Raphson) um parâmetro de cada vez, ou seja, iterar
se houver parâmetros e cada etapa aumentar o valor da função de destino , mas esse esquema acabará na melhor das hipóteses no mesmo modo que o algoritmo EM.l ( θ | S n )v l(θ|Sn)
fonte