Bayes variacional combinado com Monte Carlo

10

Estou lendo Bayes variacionais e, pelo que entendi, tudo se resume à ideia de que você aproxima (onde são as variáveis ​​latentes do seu modelo os dados observados) com uma função , assumindo que é como onde é um subconjunto das variáveis ​​latentes. Pode-se então mostrar que o fator ótimo é: z x q ( z ) q q i ( z i ) z i q i ( z i ) Q * i ( z i ) = ln P ( x , z ) z / i + const.p(zx)zxq(z)qqi(zi)ziqi(zi)

qi(zi)=lnp(x,z)z/i+const.

Onde os colchetes angulares denotam a expectativa sobre todas as variáveis ​​latentes, exceto com relação à distribuição . q ( z )ziq(z)

Agora, essa expressão é geralmente avaliada analiticamente, para fornecer uma resposta exata a um valor-alvo aproximado. No entanto, ocorreu-me que, como essa é uma expectativa, uma abordagem óbvia é aproximar essa expectativa por amostragem. Isso daria uma resposta aproximada a uma função de destino aproximada, mas cria um algoritmo muito simples, talvez para casos em que a abordagem analítica não é viável.

Minha pergunta é: essa é uma abordagem conhecida ? Isso tem um nome? Existem razões pelas quais ele pode não funcionar tão bem ou pode não gerar um algoritmo tão simples?

Peter
fonte
Eu acho que o maior problema será o eufemismo das incertezas que as aproximações VB normalmente produzem.
probabilityislogic

Respostas:

4

Confesso que esse não é um domínio que eu conheço muito bem, então leve isso com um grão de sal.

Antes de tudo, observe que o que você está propondo não produz um algoritmo tão simples: para calcular o novo , não precisamos calcular um único valor esperado (como média ou variância), mas o valor esperado de uma função inteira. Isso é difícil computacionalmente e exigirá que você aproxime o verdadeiro por algum (por exemplo, podemos encontrar uma aproximação do histograma) q ~ qqiqq~

Mas, se você estiver restringindo o a uma pequena família paramétrica, uma idéia melhor pode ser usar a descida do gradiente estocástico para encontrar os melhores valores de parâmetro (consulte: Inferência bayesiana variacional com pesquisa estocástica, 2012, Paisley, Blei, Jordan ) O gradiente que eles calculam é muito semelhante ao que você escreveu: eles tiram amostras de todas as aproximações que não estão otimizando no momento.qi

Portanto, o que você propõe não é tão simples, mas é bem próximo de um método real proposto recentemente

Guillaume Dehaene
fonte