Por que alguém deveria usar EM vs. dizer, descida de gradiente com MLE?

10

Matematicamente, muitas vezes é visto que expressões e algoritmos para Expectation Maximization (EM) geralmente são mais simples para modelos mistos, mas parece que quase tudo (se não tudo) que pode ser resolvido com EM também pode ser resolvido com MLE (por, digamos, o método Newton-Raphson, para expressões que não estão fechadas).

Na literatura, porém, parece que muitos preferem a EM a outros métodos (incluindo a minimização do LL por, digamos, descida de gradiente); é por causa de sua simplicidade nesses modelos? Ou é por outras razões?

Guillermo Angeris
fonte

Respostas:

15

Eu acho que há alguns fios cruzados aqui. O MLE, como referido na literatura estatística, é a Estimativa de Máxima Verossimilhança. Este é um estimador . O algoritmo EM é, como o nome indica, um algoritmo que é frequentemente usado para calcular o MLE. Estas são maçãs e laranjas.

Quando o MLE não está na forma fechada, um algoritmo comumente usado para encontrá-lo é o algoritmo de Newton-Raphson, que pode ser o que você está se referindo quando afirma que "também pode ser resolvido com o MLE". Em muitos problemas, esse algoritmo funciona muito bem; para problemas de "baunilha", normalmente é difícil de derrotar.

No entanto, existem muitos problemas em que falha, como modelos de mistura. Minha experiência com vários problemas computacionais tem sido que, embora o algoritmo EM nem sempre seja a escolha mais rápida, geralmente é o mais fácil por várias razões. Muitas vezes, com novos modelos, o primeiro algoritmo usado para encontrar o MLE será um algoritmo EM. Então, vários anos depois, os pesquisadores podem descobrir que um algoritmo significativamente mais complicado é significativamente mais rápido. Mas esses algoritmos não são trivalentes.

Além disso, especulo que grande parte da popularidade do algoritmo EM é o sabor estatístico dele, ajudando os estatísticos a se sentirem diferenciados dos analistas numéricos.

Cliff AB
fonte
3
"... ajudando estatísticos a se diferenciarem de analistas numéricos" --- eu definitivamente salvarei esta linha para uso posterior.
Guillermo Angeris
Além disso (acabei de atualizar a pergunta, porque era minha intenção original incluir também isso), mas por que deveríamos usar o EM em vez de um algoritmo como o Gradient Descent? Qual é a preferência de um para o outro? Velocidade de convergência, talvez?
Guillermo Angeris
1
No trabalho que fiz, a maior vantagem do algoritmo EM é o fato de os valores dos parâmetros propostos serem sempre válidos: ou seja, massas de probabilidade entre [0,1] que somam 1, o que não é necessariamente o caso para Gradiente descendente. Outra vantagem é que você não precisa calcular a probabilidade de garantir que ela tenha aumentado a cada passo. Isso é importante se a atualização puder ser calculada rapidamente, mas a probabilidade não.
Cliff AB
3
Outro aspecto muito interessante do algoritmo EM: tende a ser muito mais numericamente estável do que os métodos baseados em gradiente. Minha pesquisa começou com algoritmos EM e levei quatro anos para perceber como a instabilidade numérica era irritante (ou seja, quando comecei a usar algoritmos não EM).
Cliff AB
interessante. Eu acho que essa pergunta veio à tona novamente para mim, mas que tal fazer algo semelhante à otimização convexa (nos subgradientes) em que você essencialmente executa a descida do gradiente e depois projeta no cenário possível? Quero dizer, certamente parece muito mais difícil que o EM, mas quais seriam algumas outras desvantagens?
Guillermo Angeris 23/03