Inferência Variacional, a divergência de KL requer verdadeiro

Para meu entendimento (muito modesto) da inferência variacional, tenta-se aproximar uma distribuição desconhecida encontrando uma distribuição que otimiza o seguinte: $p$ $q$

K L (p | | q) = \sum_{x} p (x) l o g \frac{p (x)}{q (x)}

$KL (p||q) = \sum\limits_{x} p(x)log \frac {p(x)}{q(x)}$

Sempre que investo tempo na compreensão da inferência variacional, continuo seguindo essa fórmula e não consigo deixar de sentir que estou perdendo o objetivo. Parece que eu preciso saber para calcular . Mas o ponto principal era que eu não conhecia essa distribuição . $p$ $KL(p||q)$ $p$

É esse ponto exato que me incomoda toda vez que tento ler algo variacional. o que estou perdendo?

EDIT :

Adicionarei alguns comentários extras aqui como resultado da resposta de @wij. Tentarei ser mais preciso.

Nos casos em que estou interessado, realmente parece perfeitamente razoável considerar que o seguinte se aplica;

p (θ | D) = \frac{p (D | θ) p (θ)}{p (D)} \propto p (D | θ) p (θ)

$p(\theta | D) = \frac{p(D|\theta)p(\theta)}{p(D)} \propto p(D|\theta)p(\theta)$

Neste caso, eu poderia saber o que deve proporcionalmente parecido, porque eu vou ter feito uma escolha modelo para e . Eu estaria correto ao dizer que preciso escolher uma distribuição familiar [digamos gaussiana], de modo que agora eu possa estimar . Parece que, neste caso, estou tentando ajustar um gaussiano que esteja próximo do não normalizado . Isso está correto? $p$ $p(D|\theta)$ $p(\theta)$ $q$ $KL(p(\theta|D) || q)$ $p(D|\theta)p(\theta)$

Nesse caso, parece que estou assumindo que minha posterior é uma distribuição normal e apenas tento encontrar valores prováveis para essa distribuição com relação à divergência de . $KL$

variational-bayes Vincent Warmerdam
fonte

Sinto que você trata como um objeto completamente desconhecido. Eu não acho que esse seja o caso. Provavelmente é isso que você perdeu. $p$

Diga observamos (IID) e queremos inferir , onde assumimos que e para são especificados pelo modelo. Pela regra de Bayes, $Y = \{y_i\}_{i=1}^n$ $p(x|Y)$ $p(y|x)$ $p(x)$ $x\in\mathbb{R}^d$

p (x | Y) = \frac{p (x)}{p (Y)} p (Y | x) = \frac{p (x)}{p (Y)} \prod_{i = 1}^{n} p (y_{i} | x) .

$p(x|Y) = \frac{p(x)}{p(Y)}p(Y|x) = \frac{p(x)}{p(Y)}\prod_{i=1}^n p(y_i|x).$

A primeira observação é que sabemos algo sobre a distribuição posterior . É dado como acima. Normalmente, simplesmente não conhecemos seu normalizador . Se a probabilidade é muito complicada, acabamos tendo uma distribuição complicada . $p(x|Y)$ $p(Y)$ $p(y|x)$ $p(x|Y)$

A segunda coisa que torna possível fazer inferência variacional é que há uma restrição na forma que pode assumir. Sem qualquer restrição, seria que geralmente é intratável. Normalmente, assume-se vive em um subconjunto escolhido da família exponencial. Por exemplo, essa pode ser a família de distribuições gaussianas totalmente fatoradas, ou seja, . Acontece que, se esse é seu conjunto de restrições, cada componente de é dado por $q$ $\arg \min_q KL(p||q)$ $p$ $q$ $q \in \mathcal{Q} = \{\prod_{i=1}^d q_i(x_i) \mid \text{each } q_i \text{ is a one-dimensional Gaussian}\}$ $q$

q_{i} \propto \exp (E_{\prod_{j \neq i} q_{j}} \log p (x, Y)),

$q_i \propto \exp( \mathbb{E}_{\prod_{j\neq i} q_j} \log p(x, Y) ),$

ondeA fórmula exata não importa muito. O ponto é que o aproximado pode ser encontrado confiando no conhecimento do verdadeiro e na suposição da forma que o aproximado deve assumir. $p(x, Y) = p(x) \prod_{i=1}^n p(y_i|x).$ $q$ $p$ $q$

Atualizar

A seguir, responda a parte atualizada da pergunta. Acabei de perceber que estava pensando em . Sempre usarei para a quantidade verdadeira para uma quantidade aproximada. Em inferência variacional ou Bayes variacional, é dado por $KL(q||p(x|Y))$ $p$ $q$ $q$

q = \arg min_{q \in Q} K L (q | | p (x | Y)) .

$q = \arg \min_{q \in \mathcal{Q}} KL(q\, ||\, p(x|Y)).$

Com o conjunto de restrições como acima, a solução é a fornecida anteriormente. Agora, se você está pensando em $\mathcal{Q}$

q = \arg min_{q \in Q} K L (p (x | Y) | | q),

$q = \arg \min_{q \in \mathcal{Q}} KL( p(x|Y) \, || \, q),$

para definido como um subconjunto da família exponencial, essa inferência é chamada de propagação de expectativa (EP). A solução para nesse caso é a que seus momentos correspondem aos de . $\mathcal{Q}$ $q$ $p(x|Y)$

De qualquer maneira, você está certo ao dizer que essencialmente tenta aproximar a verdadeira distribuição posterior no sentido KL por uma distribuição restrita a assumir alguma forma. $q$

wij
fonte

Eu não posso discutir com isso. Eu acho que a maioria das explicações, incluindo o meu próprio brilho sobre isso.

Peadar Coyle

Inferência Variacional, a divergência de KL requer verdadeiro

Respostas: