Por que a maximização das expectativas é importante para os modelos de mistura?

15

Existem muitas publicações que enfatizam o método de Maximização de Expectativas em modelos de mistura (Mistura de Gaussiana, Modelo de Markov Oculto, etc.).

Por que EM é importante? O EM é apenas uma maneira de otimizar e não é amplamente usado como método baseado em gradiente (gradiente decente ou método de newton / quase-newton) ou outro método sem gradiente discutido AQUI . Além disso, o EM ainda tem um problema de mínimos locais.

É porque o processo é intuitivo e pode ser facilmente transformado em código? Ou que outras razões?

Haitao Du
fonte

Respostas:

14

Em princípio, as abordagens de otimização EM e padrão podem funcionar para ajustar distribuições de mistura. Como o EM, os solucionadores de otimização convexos irão convergir para um ótimo local. Porém, existe uma variedade de algoritmos de otimização para a busca de melhores soluções na presença de vários ótimos locais. Tanto quanto sei, o algoritmo com a melhor velocidade de convergência dependerá do problema.

Um benefício do EM é que ele produz naturalmente parâmetros válidos para a distribuição da mistura em todas as iterações. Por outro lado, algoritmos de otimização padrão precisariam de restrições a serem impostas. Por exemplo, digamos que você esteja ajustando um modelo de mistura gaussiano. Uma abordagem de programação não-linear padrão exigiria que as matrizes de covariância restritiva fossem semidefinidas positivas e que os pesos dos componentes da mistura fossem não-negativos e somados a um.

Para obter um bom desempenho em problemas de alta dimensão, um solucionador de programação não linear normalmente precisa explorar o gradiente. Portanto, você deve derivar o gradiente ou computá-lo com diferenciação automática. Gradientes também são necessários para funções de restrição se eles não tiverem um formulário padrão. O método de Newton e abordagens relacionadas (por exemplo, métodos de região de confiança) também precisam do Hessian. Métodos de diferenciação finita ou livres de derivação podem ser usados ​​se o gradiente não estiver disponível, mas o desempenho tende a se expandir mal à medida que o número de parâmetros aumenta. Por outro lado, o EM não requer o gradiente.

O EM é conceitualmente intuitivo, o que é uma grande virtude. Isso também vale para abordagens de otimização padrão também. Existem muitos detalhes de implementação, mas o conceito geral é simples. Muitas vezes, é possível usar solucionadores de otimização padrão que abstraem esses detalhes sob o capô. Nesses casos, o usuário apenas precisa fornecer a função, as restrições e os gradientes objetivos, e ter conhecimento de trabalho suficiente para selecionar um solucionador adequado para o problema. Porém, certamente é necessário conhecimento especializado se chegar ao ponto em que o usuário tiver que pensar ou implementar detalhes de baixo nível do algoritmo de otimização.

Outro benefício do algoritmo EM é que ele pode ser usado nos casos em que alguns valores de dados estão ausentes.

Também de interesse (incluindo os comentários):

user20160
fonte
As restrições no caso de modelos de mistura geralmente podem ser impostas por reparameterização. Por exemplo pode ser feito através de optimização através q iR e p i = exp ( q i )ipi=1qiR . pi=exp(qi)jexp(qj)
bayerj
11
Sim, isso certamente é verdade. Essa seria uma forma de impor restrições da perspectiva do usuário (que precisa codificá-lo), mas não da perspectiva do solucionador (que não recebe mais diretamente a restrição correspondente). Outro truque: uma matriz covariância pode ser expressa usando a matriz sem restrições L , onde C = L T L . Porém, isso aumenta a computação e o número de parâmetros em comparação com o uso direto de C e a limita a ser uma matriz simétrica semidefinida positiva. CUC=UTUC
user20160
Sim, boa perspectiva de mudar do solucionador para o usuário. Você também pode considerar apenas triangular . Dessa forma, você não especifica demais o sistema, pois a maioria dos parâmetros é 0 . U0
bayerj
Certo, certo, decomposição cholesky. Muito melhor.
User20160
11
+1 ótima resposta! você poderia explicar mais sobre "produz naturalmente parâmetros válidos para a distribuição da mistura em todas as iterações"? Para outros métodos, ainda temos valores de variáveis ​​de decisão para cada iteração, certo?
Haitao Du
2

Acho que a resposta do user20160 fornece uma explicação muito boa, a razão mais importante que torna os métodos baseados em gradiente não adequados aqui é a restrição de matrizes de covariância serem semidefinidas positivas e os coeficientes de mistura serem não-negativos e somam um.

Só quero salientar que, se restringirmos as matrizes de covariância a serem diagonais, essas duas restrições poderão ser expressas facilmente.

Σ=[σ12σN2]
ϕk=epk/Kepi
then the two constrains are satisfied, and gradients can be evaluated simply say by back propagation.

Moreover this allows us to directly optimize for the true likelihood instead of the variational lower bound (ELBO), thus removes the need for latent variables.

However even in such cases EM often turns out to be a better algorithm than gradient decent.

dontloo
fonte