Inferência Variacional, a divergência de KL requer verdadeiro

12

Para meu entendimento (muito modesto) da inferência variacional, tenta-se aproximar uma distribuição desconhecida encontrando uma distribuição que otimiza o seguinte:pq

KL(p||q)=xp(x)logp(x)q(x)

Sempre que investo tempo na compreensão da inferência variacional, continuo seguindo essa fórmula e não consigo deixar de sentir que estou perdendo o objetivo. Parece que eu preciso saber para calcular . Mas o ponto principal era que eu não conhecia essa distribuição .pKL(p||q)p

É esse ponto exato que me incomoda toda vez que tento ler algo variacional. o que estou perdendo?

EDIT :

Adicionarei alguns comentários extras aqui como resultado da resposta de @wij. Tentarei ser mais preciso.

Nos casos em que estou interessado, realmente parece perfeitamente razoável considerar que o seguinte se aplica;

p(θ|D)=p(D|θ)p(θ)p(D)p(D|θ)p(θ)

Neste caso, eu poderia saber o que deve proporcionalmente parecido, porque eu vou ter feito uma escolha modelo para e . Eu estaria correto ao dizer que preciso escolher uma distribuição familiar [digamos gaussiana], de modo que agora eu possa estimar . Parece que, neste caso, estou tentando ajustar um gaussiano que esteja próximo do não normalizado . Isso está correto?pp(D|θ)p(θ)qKL(p(θ|D)||q)p(D|θ)p(θ)

Nesse caso, parece que estou assumindo que minha posterior é uma distribuição normal e apenas tento encontrar valores prováveis ​​para essa distribuição com relação à divergência de .KL

Vincent Warmerdam
fonte

Respostas:

7

Sinto que você trata como um objeto completamente desconhecido. Eu não acho que esse seja o caso. Provavelmente é isso que você perdeu.p

Diga observamos (IID) e queremos inferir , onde assumimos que e para são especificados pelo modelo. Pela regra de Bayes,Y={yi}i=1np(x|Y)p(y|x)p(x)xRd

p(x|Y)=p(x)p(Y)p(Y|x)=p(x)p(Y)i=1np(yi|x).

A primeira observação é que sabemos algo sobre a distribuição posterior . É dado como acima. Normalmente, simplesmente não conhecemos seu normalizador . Se a probabilidade é muito complicada, acabamos tendo uma distribuição complicada .p(x|Y)p(Y)p(y|x)p(x|Y)

A segunda coisa que torna possível fazer inferência variacional é que há uma restrição na forma que pode assumir. Sem qualquer restrição, seria que geralmente é intratável. Normalmente, assume-se vive em um subconjunto escolhido da família exponencial. Por exemplo, essa pode ser a família de distribuições gaussianas totalmente fatoradas, ou seja, . Acontece que, se esse é seu conjunto de restrições, cada componente de é dado porqargminqKL(p||q)pqqQ={i=1dqi(xi)each qi is a one-dimensional Gaussian}q

qiexp(Ejiqjlogp(x,Y)),

ondeA fórmula exata não importa muito. O ponto é que o aproximado pode ser encontrado confiando no conhecimento do verdadeiro e na suposição da forma que o aproximado deve assumir.p(x,Y)=p(x)i=1np(yi|x).qpq

Atualizar

A seguir, responda a parte atualizada da pergunta. Acabei de perceber que estava pensando em . Sempre usarei para a quantidade verdadeira para uma quantidade aproximada. Em inferência variacional ou Bayes variacional, é dado porKL(q||p(x|Y))pqq

q=argminqQKL(q||p(x|Y)).

Com o conjunto de restrições como acima, a solução é a fornecida anteriormente. Agora, se você está pensando emQ

q=argminqQKL(p(x|Y)||q),

para definido como um subconjunto da família exponencial, essa inferência é chamada de propagação de expectativa (EP). A solução para nesse caso é a que seus momentos correspondem aos de .Qqp(x|Y)

De qualquer maneira, você está certo ao dizer que essencialmente tenta aproximar a verdadeira distribuição posterior no sentido KL por uma distribuição restrita a assumir alguma forma.q

wij
fonte
Eu não posso discutir com isso. Eu acho que a maioria das explicações, incluindo o meu próprio brilho sobre isso.
Peadar Coyle