Ultimamente, tenho estudado a Maximização de Expectativas e peguei alguns exemplos simples no processo:
A partir daqui : Há três moedas , e com , e a respectiva probabilidade de aterragem na cabeça quando atiradas. Atire . Se o resultado for Cabeça, jogue três vezes, depois jogue três vezes. Os dados observados produzidos por e são assim: HHH, TTT, HHH, TTT, HHH. Os dados ocultos são o resultado de . Estimativa , e .
E a partir daqui : Há duas moedas e com e sendo a respectiva probabilidade de aterragem na cabeça quando jogou. Cada rodada, selecione uma moeda aleatoriamente e jogue-a dez vezes; registre os resultados. Os dados observados são os resultados do sorteio fornecidos por essas duas moedas. No entanto, não sabemos qual moeda foi selecionada para uma rodada específica. Estimado e .
Embora eu possa obter os cálculos, não posso relacionar as maneiras como eles são resolvidos com a teoria EM original. Especificamente, durante o M-Step de ambos os exemplos, não vejo como eles estão maximizando alguma coisa. Parece que eles estão recalculando os parâmetros e, de alguma forma, os novos parâmetros são melhores que os antigos. Além disso, os dois E-Steps nem se parecem, sem mencionar o E-Step da teoria original.
Então, como exatamente esses exemplos funcionam?
fonte
Respostas:
(Esta resposta usa o segundo link que você forneceu.)
Queremos encontrar o estimador de probabilidade máxima . O algoritmo Expectation-Maximization (EM) é um desses métodos para encontrar (pelo menos local) . Ele funciona encontrando a expectativa condicional, que é usada para maximizar . A idéia é que, ao encontrar continuamente um mais provável (ou seja, mais provável) em cada iteração, aumentaremos continuamente que, por sua vez, aumenta a função de probabilidade. Há três coisas que precisam ser feitas antes de seguir adiante, projetando um algoritmo baseado em EM. q qqPr[X,Z| θ]θ^ θ^ θ θ Pr[X,Z|θ]
Construir o modelo
Antes de avançarmos com o EM, precisamos descobrir exatamente o que estamos computando. Na etapa E, estamos computando exatamente o valor esperado para . Então, qual é esse valor, realmente? Observe que O motivo é que temos cinco experimentos para explicar e não sabemos qual moeda foi usada em cada uma. A desigualdade é devido alog Pr [ X , Z | θ ]registroPr [ X, Z| θ] registro
Agora, o que é ? É a probabilidade de vermos a moeda dada a experiência e . Usando probabilidades condicionais, temos,CPr [ZEu=C|XEu, θ ] C θ Pr [ Z i = C | X i , θ ] = Pr [ X i , Z i = C | θ ]XEu θ
Embora tenhamos feito algum progresso, ainda não terminamos o modelo. Qual é a probabilidade de uma determinada moeda a sequência ? Deixando Agora é claramente apenas a probabilidade sob as duas possibilidades de ou . Como , temos, h i = # cabeças em X i Pr [ X i , Z i = C | θ ] = 1XEu hEu= # entra XEu
Pr[Xi| θ]Zi=AZi=BPr[Zi=A]=Pr[Zi=B]=1/2
E-Step
Ok ... isso não foi tão divertido, mas podemos começar a trabalhar agora em EM. O algoritmo EM começa fazendo uma suposição aleatória para . Neste exemplo, temos . Calculamos Esse valor está alinhado com o que está no papel. Agora podemos calcular o número esperado de cabeças em da moeda , Fazendo a mesma coisa pela moeda que obtemos, θ 0θ θ0 0= ( 0,6 , 0,5 )
M-Step
Com nossos valores esperados em mãos, agora vem a etapa M em que queremos maximizar considerando nossos valores esperados. Isso é feito por normalização simples! Da mesma forma para . Esse processo começa novamente com o E-Step e e continua até os valores de convergirem (ou para algum limite permitido). Neste exemplo, temos 10 iterações e . Em cada iteração, o valor de aumenta, devido à melhor estimativa deθ
Agora, neste caso, o modelo era bastante simplista. As coisas podem ficar muito mais complicadas rapidamente, no entanto, o algoritmo EM sempre convergirá e sempre produzirá um estimador de probabilidade máxima . Pode ser um estimador local , mas para contornar isso, podemos simplesmente reiniciar o processo EM com uma inicialização diferente. Podemos fazer isso uma quantidade constante de vezes e manter os melhores resultados (ou seja, aqueles com a maior probabilidade final).θ^
fonte