Christopher Bishop define o valor esperado da função de probabilidade do log de dados completos (ou seja, assumindo que recebemos os dados observáveis X e os dados latentes Z) da seguinte maneira:
onde é definido como:
A idéia, como descrita, é considerar um Modelo de Mistura Gaussiano no qual as matrizes de covariância dos componentes da mistura são dadas por , em que é um parâmetro de variação compartilhado por todos os componentes, como aquele:
e assim, agora é definido como:
O argumento agora é o seguinte:
se considerarmos o limite , vemos que no denominador o termo para o qual é menor, passará a zero mais lentamente e, portanto, as responsabilidades para o ponto de dados vão para zero, exceto pelo termo j, pela qual a responsabilidade irá para a unidade. Assim, nesse limite, obtemos uma atribuição rígida de pontos de dados para clusters, assim como no algoritmo -eans, de modo que
onde é definido como:
Minha pergunta é como o argumento acima se aplica? Ou seja, o que significa um termo ir para zero ? E como levar o limite na eqn resulta em uma responsabilidade binária?
Respostas:
Vamos escrever Então Se usarmos teremos where exceto em queπ k exp { - ‖ x n - μ k ‖ 2 / 2 ε }
fonte