Por que otimizar uma mistura de gaussiana diretamente computacionalmente difícil?

18

Considere a probabilidade de log de uma mistura de gaussianos:

l(Sn;θ)=t=1nlogf(x(t)|θ)=t=1nlog{i=1kpif(x(t)|μ(i),σi2)}

Fiquei me perguntando por que era computacionalmente difícil maximizar essa equação diretamente? Eu estava procurando por uma clara intuição sólida sobre por que deveria ser óbvio que é difícil ou talvez uma explicação mais rigorosa do por que é difícil. Esse problema está completo ou não sabemos ainda como resolvê-lo? É por isso que recorremos ao algoritmo EM ( maximização de expectativa )?


Notação:

Sn = dados de treinamento.

x(t) = ponto de dados.

θ = o conjunto de parâmetros que especifica o Gaussiano, seus meios, desvios-padrão e a probabilidade de gerar um ponto de cada cluster / classe / Gaussiano.

pi = a probabilidade de gerar um ponto do cluster / classe / gaussiano i.

Pinóquio
fonte

Respostas:

14

Primeiro, o GMM é um algoritmo específico para agrupamento, em que você tenta encontrar a rotulagem ideal de suas observações. Tendo aulas possíveis, significa que existem rotulações possíveis de seus dados de treinamento. Isso já se torna enorme para valores moderados de e .k k n k nnkknkn

Segundo, o funcional que você está tentando minimizar não é convexo e, junto com o tamanho do seu problema, dificulta bastante. Eu só sei que o k-means (GMM pode ser visto como uma versão suave do kmeans) é difícil de usar NP. Mas não sei se isso também foi provado para GMM.

Para verificar que o problema não é convexo, considere o caso unidimensional: e verifique se você não pode garantir que para todos os x.d 2 L

L=log(e(x/σ1)2+e(x/σ2)2)
d2Ldx2>0

Ter um problema não convexo significa que você pode ficar preso em mínimos locais. Em geral, você não possui as garantias fortes que possui na otimização convexa, e procurar uma solução também é muito mais difícil.

jpmuc
fonte
3
Em relação ao segundo ponto: k-médias podem ser vistas como um caso especial de GMMs (mais precisamente, um caso limite em que as variações são levadas a zero). Se pudermos reduzir o k-mean ao ajuste de um GMM, este último também deve ser um problema de NP.
Lucas
1
@ Lucas: Aqui está um link cruzado validado para a sua observação.
Xi'an
7

Além dos pontos de juampa, permitam-me sinalizar essas dificuldades:

  • A função é ilimitada, portanto o máximo verdadeiro é e corresponde a (por exemplo) e . Um verdadeiro maximizador deve, portanto, terminar com esta solução, que não é útil para fins de estimativa.+ u ( i ) = x 1 σ i = 0l(θ|Sn)+μ^(i)=x1σ^i=0
  • Mesmo sem considerar os termos na decomposição do produto de somas como uma soma de produtos em , a função a ser maximizada em é altamente multimodal (além de não ser convexa), portanto, um desafio para os métodos numéricos. O EM reconhece a dificuldade convergindo para um modo local ou ponto de sela e exigindo várias execuções. Como mostrado l ( θ | S n ) θknl(θ|Sn)θa imagem abaixo

tirado do meu livro .

Uma observação adicional: sem chamar o algoritmo EM, pode-se usar um algoritmo de otimização padrão (como Newton-Raphson) um parâmetro de cada vez, ou seja, iterar

  • encontreθ1=argmaxθ1l(θ|Sn)
  • encontreθ2=argmaxθ2l(θ1,θ1|Sn)
  • ...
  • encontreθv=argmaxθvl(θv,θv|Sn)

se houver parâmetros e cada etapa aumentar o valor da função de destino , mas esse esquema acabará na melhor das hipóteses no mesmo modo que o algoritmo EM.l ( θ | S n )vl(θ|Sn)

Xi'an
fonte
OK, L é ilimitado se a variação for 0. Mas se os excluirmos dos parâmetros possíveis (então assumimos toda a variação> 0), L não será tão alto sempre que a variação escolhida infinitesimalmente (devido a outros pontos). Estou certo? Então, para esse possível conjunto de parâmetros, L seria limitado e isso implicará que o algoritmo EM converja (aumentando a sequência limitada).
ahstat
@ahstat: supor que as variações sejam estritamente positivas não impede que o EM converja para uma solução degenerada se iniciado perto o suficiente.
Xian