Aplicando inferência variacional estocástica à Mistura Bayesiana de Gaussiana

9

Estou tentando implementar o modelo de Mistura Gaussiana com inferência variacional estocástica, seguindo este artigo .

insira a descrição da imagem aqui

Este é o pgm da mistura gaussiana.

De acordo com o artigo, o algoritmo completo de inferência variacional estocástica é: insira a descrição da imagem aqui

E ainda estou muito confuso sobre o método para escalá-lo para GMM.

Primeiro, pensei que o parâmetro variacional local é apenas e outros são parâmetros globais. Por favor, corrija-me se eu estiver errado. O que significa o passo 6 ? O que devo fazer para conseguir isso?qzas though Xi is replicated by N times

Você poderia por favor me ajudar com isso? Desde já, obrigado!

user5779223
fonte
Está dizendo que, em vez de usar todo o conjunto de dados, experimente um ponto de dados e finja que você tem de mesmo tamanho. Em muitos casos, este será equivalente a multiplicar a expectativa, com um ponto de dados por . NNN
Daeyoung Lim
@DaeyoungLim Obrigado pela sua resposta! Entendi o que você quer dizer agora, mas ainda estou confuso sobre quais estatísticas devem ser atualizadas localmente e quais devem ser atualizadas globalmente. Por exemplo, aqui está uma implementação da mistura de gaussiana, você poderia me dizer como escalá-lo para svi? Estou um pouco perdido. Muito obrigado!
user5779223
Eu não li o código inteiro, mas se você estiver lidando com um modelo de mistura gaussiano, as variáveis ​​indicadoras do componente de mistura devem ser as variáveis ​​locais, pois cada uma delas está associada a apenas uma observação. Portanto, as variáveis ​​latentes do componente de mistura que seguem a distribuição Multinoulli (também conhecida como distribuição categórica no ML) são na sua descrição acima. zi,i=1,,N
Daeyoung Lim
@DaeyoungLim Sim, eu entendo o que você disse até agora. Portanto, para a distribuição variacional q (Z) q (\ pi, \ mu, \ lambda), q (Z) deve ser variável local. Mas existem muitos parâmetros associados a q (Z). Por outro lado, também existem muitos parâmetros associados a q (\ pi, \ mu, \ lambda). E não sei como atualizá-los adequadamente.
user5779223
Você deve usar a suposição de campo médio para obter as distribuições variacionais ideais para os parâmetros variacionais. Aqui está uma referência: maths.usyd.edu.au/u/jormerod/JTOpapers/Ormerod10.pdf
Daeyoung Lim

Respostas:

1

Primeiro, algumas notas que me ajudam a entender o artigo sobre SVI:

  • Ao calcular o valor intermediário para o parâmetro variacional dos parâmetros globais, amostramos um ponto de dados e fingimos que todo o conjunto de dados de tamanho era aquele único ponto, vezes.NNN
  • βηg é o parâmetro natural para o condicional completo da variável global . A notação é usada para enfatizar que é uma função das variáveis ​​condicionadas, incluindo os dados observados. β

kμk,τkηg

μ,τN(μ|γ,τ(2α1)Ga(τ|α,β)

η0=2α1η1=γ(2α1)η2=2β+γ2(2α1)a,b,mα,β,μ

μk,τkη˙+Nzn,kNzn,kxNNzn,kxn2η˙zn,kexpln(p))Np(xn|zn,α,β,γ)=NK(p(xn|αk,βk,γk))zn,k

Com isso, podemos concluir a etapa (5) do pseudocódigo SVI com:

ϕn,kexp(ln(π)+Eqln(p(xn|αk,βk,γk))=exp(ln(π)+Eq[μkτk,τ2x,x2μ2τlnτ2)]

A atualização dos parâmetros globais é mais fácil, pois cada parâmetro corresponde a uma contagem dos dados ou a uma de suas estatísticas suficientes:

λ^=η˙+Nϕn1,x,x2

0a,b,mα,β,μ

insira a descrição da imagem aqui

insira a descrição da imagem aqui

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Sun Aug 12 12:49:15 2018

@author: SeanEaster
"""

import numpy as np
from matplotlib import pylab as plt
from scipy.stats import t
from scipy.special import digamma 

# These are priors for mu, alpha and beta

def calc_rho(t, delay=16,forgetting=1.):
    return np.power(t + delay, -forgetting)

m_prior, alpha_prior, beta_prior = 0., 1., 1.
eta_0 = 2 * alpha_prior - 1
eta_1 = m_prior * (2 * alpha_prior - 1)
eta_2 = 2 *  beta_prior + np.power(m_prior, 2.) * (2 * alpha_prior - 1)

k = 3

eta_shape = (k,3)
eta_prior = np.ones(eta_shape)
eta_prior[:,0] = eta_0
eta_prior[:,1] = eta_1
eta_prior[:,2] = eta_2

np.random.seed(123) 
size = 1000
dummy_data = np.concatenate((
        np.random.normal(-1., scale=.25, size=size),
        np.random.normal(0.,  scale=.25,size=size),
        np.random.normal(1., scale=.25, size=size)
        ))
N = len(dummy_data)
S = 1

# randomly init global params
alpha = np.random.gamma(3., scale=1./3., size=k)
m = np.random.normal(scale=1, size=k)
beta = np.random.gamma(3., scale=1./3., size=k)

eta = np.zeros(eta_shape)
eta[:,0] = 2 * alpha - 1
eta[:,1] = m * eta[:,0]
eta[:,2] = 2. * beta + np.power(m, 2.) * eta[:,0]


phi = np.random.dirichlet(np.ones(k) / k, size = dummy_data.shape[0])

nrows, ncols = 4, 5
total_plots = nrows * ncols
total_iters = np.power(2, total_plots - 1)
iter_idx = 0

x = np.linspace(dummy_data.min(), dummy_data.max(), num=200)

while iter_idx < total_iters:

    if np.log2(iter_idx + 1) % 1 == 0:

        alpha = 0.5 * (eta[:,0] + 1)
        beta = 0.5 * (eta[:,2] - np.power(eta[:,1], 2.) / eta[:,0])
        m = eta[:,1] / eta[:,0]
        idx = int(np.log2(iter_idx + 1)) + 1

        f = plt.subplot(nrows, ncols, idx)
        s = np.zeros(x.shape)
        for _ in range(k):
            y = t.pdf(x, alpha[_], m[_], 2 * beta[_] / (2 * alpha[_] - 1))
            s += y
            plt.plot(x, y)
        plt.plot(x, s)
        f.axes.get_xaxis().set_visible(False)
        f.axes.get_yaxis().set_visible(False)

    # randomly sample data point, update parameters
    interm_eta = np.zeros(eta_shape)
    for _ in range(S):
        datum = np.random.choice(dummy_data, 1)

        # mean params for ease of calculating expectations
        alpha = 0.5 * ( eta[:,0] + 1)
        beta = 0.5 * (eta[:,2] - np.power(eta[:,1], 2) / eta[:,0])
        m = eta[:,1] / eta[:,0]

        exp_mu = m
        exp_tau = alpha / beta 
        exp_tau_m_sq = 1. / (2 * alpha - 1) + np.power(m, 2.) * alpha / beta
        exp_log_tau = digamma(alpha) - np.log(beta)


        like_term = datum * (exp_mu * exp_tau) - np.power(datum, 2.) * exp_tau / 2 \
            - (0.5 * exp_tau_m_sq - 0.5 * exp_log_tau)
        log_phi = np.log(1. / k) + like_term
        phi = np.exp(log_phi)
        phi = phi / phi.sum()

        interm_eta[:, 0] += phi
        interm_eta[:, 1] += phi * datum
        interm_eta[:, 2] += phi * np.power(datum, 2.)

    interm_eta = interm_eta * N / S
    interm_eta += eta_prior

    rho = calc_rho(iter_idx + 1)

    eta = (1 - rho) * eta + rho * interm_eta

    iter_idx += 1
Sean Easter
fonte