Por que o algoritmo Expectation Maximization é garantido para convergir para um ótimo local?

24

Eu li algumas explicações do algoritmo EM (por exemplo, do reconhecimento de padrões e aprendizado de máquina de Bishop e do primeiro curso de Roger e Gerolami sobre aprendizado de máquina). A derivação do EM está bem, eu entendo. Também entendo por que o algoritmo cobre algo: em cada etapa, melhoramos o resultado e a probabilidade é limitada por 1,0; portanto, usando um fato simples (se uma função aumenta e é limitada, converge), sabemos que o algoritmo converge para alguma solução.

No entanto, como sabemos que é um mínimo local? Em cada etapa, estamos considerando apenas uma coordenada (variável latente ou parâmetros), para que possamos perder alguma coisa, como se o mínimo local exigisse o movimento de ambas as coordenadas ao mesmo tempo.

Acredito que esse seja um problema semelhante ao da classe geral de algoritmos de escalada, da qual EM é uma instância. Portanto, para um algoritmo geral de escalada em montanhas, temos esse problema para a função f (x, y) = x * y. Se começarmos do ponto (0, 0), somente considerando as duas direções ao mesmo tempo, poderemos subir do valor 0.

Michal
fonte
3
A probabilidade é limitada apenas para desvios fixos. Ou seja, na situação binomial, a variação é ; ou na situação gaussiana, se a variação for assumida conhecida. Se a variação for desconhecida e precisar ser estimada, a probabilidade não será limitada. Além disso, no algoritmo EM, há uma separação genérica dos parâmetros ausentes e ausentes, pelo menos para os estatísticos freqüentadores, mas as superfícies podem de fato ter selas. p(1p)
StasK
@Stask Não tenho certeza de que a probabilidade seja geralmente limitada, mesmo com variações fixas. Você está restringindo alguma família em particular?
Glen_b -Reinstala Monica

Respostas:

27

Não é garantido que o EM converja para um mínimo local. Só é garantido que converja para um ponto com gradiente zero em relação aos parâmetros. Portanto, ele pode realmente ficar preso nos pontos de sela.

Tom Minka
fonte
11
Para exemplos, veja as páginas 20 e 38 aqui , p. 85 aqui - tente "ponto de sela" no Amazon reader.
Stask
13

Primeiro de tudo, é possível que o EM converja para um mínimo local , um máximo local ou um ponto de sela da função de probabilidade. Mais precisamente, como Tom Minka apontou, o EM é garantido para convergir para um ponto com gradiente zero .

Eu posso pensar em duas maneiras de ver isso; a primeira visão é pura intuição e a segunda é o esboço de uma prova formal. Primeiro, explicarei brevemente como o EM funciona:

tbt(θ)L(θ)θt=argmaxθbt(θ)

Expectativa Maximização como subida de gradiente

Em cada iteração , EM exige que o limite toque na função de probabilidade na solução da iteração anterior, isto é, que implica que seus gradientes também são os mesmos; isto é . Portanto, EM é pelo menos tão bom quanto a subida do gradiente porque é pelo menos tão bom quanto . Em outras palavras:b t L θ t - 1 g = b t ( θ t - 1 ) = L ( θ t - 1 ) θ t θ t - 1 + η gtbtLθt1g=bt(θt1)=L(θt1)θtθt1+ηg

se EM converge para então é um ponto convergente para subida de gradiente e EM satisfaz qualquer propriedade compartilhada entre as soluções de ascensão de gradiente (incluindo o valor de gradiente zero).θ θθ

Esboço de uma prova formal

Pode-se mostrar que a diferença entre os limites e a função de probabilidade converge para zero; isto é Pode-se provar que o gradiente do limite também converge para o gradiente da função de probabilidade; ou seja: Por causa de e e que os limites usados ​​no EM são diferenciáveis, e que , temos esse e, portanto, .

(1)limtL(θt)bt(θt)=0.
(2)limtL(θt)=bt(θt).
(1)(2)θt=argmaxθbt(θ)lim t L ( θ t ) = 0bt(θt)=0limtL(θt)=0
Sobi
fonte