Bayes variacional combinado com Monte Carlo

Estou lendo Bayes variacionais e, pelo que entendi, tudo se resume à ideia de que você aproxima (onde são as variáveis latentes do seu modelo os dados observados) com uma função , assumindo que é como onde é um subconjunto das variáveis latentes. Pode-se então mostrar que o fator ótimo é: $p(z\mid x)$ $z$ $x$ $q(z)$ $q$ $q_i(z_i)$ $z_i$ $q_i(z_i)$

q_{i}^{*} (z_{i}) = ⟨ \ln p (x, z) ⟩_{z / i} + const.

$q^*_i(z_i) = \langle \ln p(x, z)\rangle_{z/i} + \text{const.}$

Onde os colchetes angulares denotam a expectativa sobre todas as variáveis latentes, exceto com relação à distribuição . $z_i$ $q(z)$

Agora, essa expressão é geralmente avaliada analiticamente, para fornecer uma resposta exata a um valor-alvo aproximado. No entanto, ocorreu-me que, como essa é uma expectativa, uma abordagem óbvia é aproximar essa expectativa por amostragem. Isso daria uma resposta aproximada a uma função de destino aproximada, mas cria um algoritmo muito simples, talvez para casos em que a abordagem analítica não é viável.

Minha pergunta é: essa é uma abordagem conhecida ? Isso tem um nome? Existem razões pelas quais ele pode não funcionar tão bem ou pode não gerar um algoritmo tão simples?

variational-bayes Peter
fonte

Eu acho que o maior problema será o eufemismo das incertezas que as aproximações VB normalmente produzem.

probabilityislogic

Respostas:

Confesso que esse não é um domínio que eu conheço muito bem, então leve isso com um grão de sal.

Antes de tudo, observe que o que você está propondo não produz um algoritmo tão simples: para calcular o novo , não precisamos calcular um único valor esperado (como média ou variância), mas o valor esperado de uma função inteira. Isso é difícil computacionalmente e exigirá que você aproxime o verdadeiro por algum (por exemplo, podemos encontrar uma aproximação do histograma) $q^\star_i$ $q^\star$ $\tilde q$

Mas, se você estiver restringindo o a uma pequena família paramétrica, uma idéia melhor pode ser usar a descida do gradiente estocástico para encontrar os melhores valores de parâmetro (consulte: Inferência bayesiana variacional com pesquisa estocástica, 2012, Paisley, Blei, Jordan ) O gradiente que eles calculam é muito semelhante ao que você escreveu: eles tiram amostras de todas as aproximações que não estão otimizando no momento. $q_i$

Portanto, o que você propõe não é tão simples, mas é bem próximo de um método real proposto recentemente

Guillaume Dehaene
fonte