Como o truque de reparameterização para os VAEs funciona e por que é importante?

57

Como funciona o truque de reparameterização para auto-codificadores variacionais (VAE)? Existe uma explicação intuitiva e fácil sem simplificar a matemática subjacente? E por que precisamos do 'truque'?

mathematical-statistics autoencoders variational-bayes generative-models David Dao
fonte

5

Uma parte da resposta é notar que todas as distribuições normais são apenas versões escaladas e traduzidas de normal (1, 0). Para desenhar a partir de Normal (mu, sigma), você pode desenhar a partir de Normal (1, 0), multiplicar por sigma (escala) e adicionar mu (traduzir).

monk

@monk: deveria ter sido Normal (0,1) em vez de (1,0) à direita, ou então multiplicar e mudar seria completamente errado!

Rika

@Breeze Ha! Sim, claro, obrigado.

monk

57

Depois de ler os slides do workshop NIPS 2015 da Kingma , percebi que precisamos do truque de reparameterização para retropropagar através de um nó aleatório.

Intuitivamente, em sua forma original, os VAEs amostram a partir de um nó aleatório que é aproximado pelo modelo paramétrico do posterior verdadeiro. O backprop não pode fluir através de um nó aleatório. $z$ $q(z \mid \phi, x)$

A introdução de um novo parâmetro nos permite reparameterizar de uma maneira que permita que o backprop flua através dos nós determinísticos. $\epsilon$ $z$

David Dao
fonte

3

Por que o

determinístico agora está à direita?

z

$z$

bringingdownthegauss

2

Não é, mas não é uma "fonte de aleatoriedade" - esse papel foi assumido por

.

ϵ

$\epsilon$

quant_dev

Observe que esse método foi proposto várias vezes antes de 2014: blog.shakirm.com/2015/10/…

quant_dev 17/09/18

2

Tão simples, tão intuitivo! Ótima resposta!

Serhiy

2

Infelizmente, não é. A forma original ainda pode ser retropropagável, porém com maior variação. Detalhes podem ser encontrados no meu post .

JP Zhang

56

Suponha que temos uma distribuição normal que é parametrizada por , especificamente . Queremos resolver o problema abaixo $q$ $\theta$ $q_{\theta}(x) = N(\theta,1)$ Este é, obviamente, um problema bastante tolo e o idealé óbvio. No entanto, aqui apenas queremos entender como o truque de reparameterização ajuda no cálculo do gradiente desse objetivo .

{min}_{θ} E_{q} [x^{2}]

$\text{min}_{\theta} \quad E_q[x^2]$

θ

$\theta$

E_{q} [x^{2}]

$E_q[x^2]$

Uma forma de calcular é como se segue $\nabla_{\theta} E_q[x^2]$

\nabla_{θ} E_{q} [x^{2}] = \nabla_{θ} \int q_{θ} (x) x^{2} d x = \int x^{2} \nabla_{θ} q_{θ} (x) \frac{q_{θ} (x)}{q_{θ} (x)} d x = \int q_{θ} (x) \nabla_{θ} \log q_{θ} (x) x^{2} d x = E_{q} [x^{2} \nabla_{θ} \log q_{θ} (x)]

$\nabla_{\theta} E_q[x^2] = \nabla_{\theta} \int q_{\theta}(x) x^2 dx = \int x^2 \nabla_{\theta} q_{\theta}(x) \frac{q_{\theta}(x)}{q_{\theta}(x)} dx = \int q_{\theta}(x) \nabla_{\theta} \log q_{\theta}(x) x^2 dx = E_q[x^2 \nabla_{\theta} \log q_{\theta}(x)]$

Para o nosso exemplo, onde , este método dá $q_{\theta}(x) = N(\theta,1)$

\nabla_{θ} E_{q} [x^{2}] = E_{q} [x^{2} (x - θ)]

$\nabla_{\theta} E_q[x^2] = E_q[x^2 (x-\theta)]$

O truque de reparameterização é uma maneira de reescrever a expectativa, para que a distribuição em relação à qual tomamos o gradiente seja independente do parâmetro . Para conseguir isso, precisamos tornar o elemento estocástico em independente de . Portanto, escrevemos como $\theta$ $q$ $\theta$ $x$ Em seguida, pode-se escrever , onde é a distribuição de , isto é, . Agora podemos escrever a derivada de seguinte maneira

x = θ + ϵ, ϵ \sim N (0, 1)

$x = \theta + \epsilon, \quad \epsilon \sim N(0,1)$

E_{q} [x^{2}] = E_{p} [(θ + ϵ)^{2}]

$E_q[x^2] = E_p[(\theta+\epsilon)^2]$

p

$p$

ϵ

$\epsilon$

N (0, 1)

$N(0,1)$

E_{q} [x^{2}]

$E_q[x^2]$

\nabla_{θ} E_{q} [x^{2}] = \nabla_{θ} E_{p} [(θ + ϵ)^{2}] = E_{p} [2 (θ + ϵ)]

$\nabla_{\theta} E_q[x^2] = \nabla_{\theta} E_p[(\theta+\epsilon)^2] = E_p[2(\theta+\epsilon)]$

Aqui está um caderno IPython que escrevi que analisa a variação dessas duas maneiras de calcular gradientes. http://nbviewer.jupyter.org/github/gokererdogan/Notebooks/blob/master/Reparameterization%20Trick.ipynb

goker
fonte

4

Qual é o teta "óbvio" para a primeira equação?

Gwg 29/04/19

2

é 0. Uma maneira de ver isso é notar que E [x ^ 2] = E [x] ^ 2 + Var (x), que é theta ^ 2 + 1 neste caso. Então teta = 0 minimiza esse objetivo.

goker

Então, isso depende completamente do problema? Por exemplo, min_ \ theta E_q [| x | ^ (1/4)] pode ser completamente diferente?

Anne van Rossum

O que depende do problema? O teta ideal? Nesse caso, sim, certamente depende do problema.

goker 13/05

\nabla_{θ} E_{q} [x^{2}] = E_{q} [x^{2} (x - θ) q_{θ} (x)]

$\nabla_\theta E_q[x^2] = E_q[x^2 (x-\theta) q_\theta(x)]$

\nabla_{θ} E_{q} [x^{2}] = E_{q} [x^{2} (x - θ)]

$\nabla_\theta E_q[x^2] = E_q[x^2 (x-\theta)]$

17

Um exemplo razoável da matemática do "truque de reparameterização" é dado na resposta do jogador, mas alguma motivação pode ser útil. (Não tenho permissão para comentar sobre essa resposta; portanto, aqui está uma resposta separada.)

$G_\theta$

G_{θ} = \nabla_{θ} E_{x \sim q_{θ}} [\dots]

$G_\theta = \nabla_{\theta}E_{x\sim q_\theta}[\ldots]$

$E_{x\sim q_\theta}[G^{est}_\theta(x)]$

G_{θ}^{e s t} (x) = \dots \frac{1}{q_{θ} (x)} \nabla_{θ} q_{θ} (x) = \dots \nabla_{θ} \log (q_{θ} (x))

$G^{est}_\theta(x) = \ldots\frac{1}{q_\theta(x)}\nabla_{\theta}q_\theta(x) = \ldots\nabla_{\theta} \log(q_\theta(x))$

$x$ $q_\theta$ $G^{est}_\theta$ $G_\theta$ $\theta$

$G^{est}_\theta$ $G_\theta$

$G_\theta$ $x$ $x$ $q_\theta(x)$ $\frac{1}{q_\theta(x)}$ $x$ $G_\theta$ $q_\theta$ $G^{est}_\theta$ $x$ $q_\theta$ $\theta$ , que pode estar longe de ser o ideal (por exemplo, um valor inicial escolhido arbitrariamente). É um pouco como a história da pessoa bêbada que procura suas chaves perto da luz da rua (porque é onde ele pode ver / provar) em vez de perto de onde as largou.

$x$ $\epsilon$ $p$ $\theta$ $G_\theta$ $p$

G_{θ} = \nabla_{θ} E_{ϵ \sim p} [J (θ, ϵ)] = E_{ϵ \sim p} [\nabla_{θ} J (θ, ϵ)]

$G_\theta = \nabla_\theta E_{\epsilon\sim p}[J(\theta,\epsilon)] = E_{\epsilon\sim p}[ \nabla_\theta J(\theta,\epsilon)]$

J (θ, ϵ)

$J(\theta,\epsilon)$

$\nabla_\theta J(\theta,\epsilon)$ $p$ $\epsilon$ $p$ $\theta$ $p$

$\nabla_\theta J(\theta,\epsilon)$ $G_\theta$ $G_\theta$ $\epsilon$ $p$ $p$ $\epsilon$ $J$

Espero que ajude.

Seth Bruder
fonte

"O fator 1 / qθ (x) está aumentando sua estimativa para explicar isso, mas se você nunca vê esse valor de x, esse dimensionamento não ajudará." Você pode explicar mais?

Czxttkl

q_{θ}

$q_\theta$

x

$x$

x

$x$

G_{θ}^{e s t} (x)

$G_{\theta}^{est}(x)$

1 / q_{θ}

$1/q_\theta$

10

Deixe-me explicar primeiro, por que precisamos do truque de Reparameterization no VAE.

O VAE possui codificador e decodificador. O decodificador amostras aleatoriamente do Z ~ q posterior verdadeiro (z∣ϕ, x) . Para implementar o codificador e decodificador como uma rede neural, você precisa retropropagar por meio de amostragem aleatória, e esse é o problema porque a retropropagação não pode fluir através do nó aleatório; Para superar esse obstáculo, usamos o truque de reparameterização.

Agora vamos ao truque. Como nosso posterior é normalmente distribuído, podemos aproximar-lo com outra distribuição normal. Nós aproximamos Z com ε normalmente distribuído .

Mas como isso é relevante?

Agora, em vez de dizer que Z é amostrado de q (z∣ϕ, x) , podemos dizer que Z é uma função que recebe o parâmetro (ε, (µ, L)) e esses µ, L vêm da rede neural superior (codificador) . Portanto, enquanto a retropropagação, tudo o que precisamos é de derivadas parciais wr μ, L e ε são irrelevantes para a obtenção de derivadas.

Sherlock
fonte

Melhor vídeo para entender esse conceito. Eu recomendaria assistir ao vídeo completo para melhor compreensão, mas se você quiser entender apenas o truque de reparameterização, assista a partir de 8 minutos. youtube.com/channel/UCNIkB2IeJ-6AmZv7bQ1oBYg

Sherlock

9

Eu pensei que a explicação encontrada no curso Stanford CS228 sobre modelos gráficos probabilísticos era muito boa. Pode ser encontrado aqui: https://ermongroup.github.io/cs228-notes/extras/vae/

Resumi / copiei as partes importantes aqui por conveniência / meu próprio entendimento (embora eu recomendo fortemente apenas verificar o link original).

\nabla_{ϕ} E_{z \sim q (z | x)} [f (x, z)]

$\nabla_\phi \mathbb{E}_{z\sim q(z|x)}[f(x,z)]$

Se você estiver familiarizado com os estimadores de função de pontuação (acredito que o REFORÇAR é apenas um caso especial disso), você perceberá que esse é o problema que eles resolvem. No entanto, o estimador da função de pontuação tem uma alta variância, levando a dificuldades na aprendizagem de modelos na maioria das vezes.

$q_\phi (z|x)$

$\epsilon$ $p(\epsilon)$ $g_\phi(\epsilon, x)$ $q_\phi$

Como exemplo, vamos usar um q muito simples a partir do qual provamos.

z \sim q_{μ, σ} = N (μ, σ)

$z \sim q_{\mu, \sigma} = \mathcal{N}(\mu, \sigma)$

q

$q$

z = g_{μ, σ} (ϵ) = μ + ϵ \cdot σ

$z = g_{\mu, \sigma}(\epsilon) = \mu + \epsilon\cdot\sigma$

ϵ \sim N (0, 1)

$\epsilon \sim \mathcal{N}(0, 1)$

$p(\epsilon)$

\nabla_{ϕ} E_{z \sim q (z | x)} [f (x, z)] = E_{ϵ \sim p (ϵ)} [\nabla_{ϕ} f (x, g (ϵ, x))]

$\nabla_\phi \mathbb{E}_{z\sim q(z|x)}[f(x,z)] = \mathbb{E}_{\epsilon \sim p(\epsilon)}[\nabla_\phi f(x,g(\epsilon, x))]$

Isso tem uma variação menor, por motivos não triviais. Verifique a parte D do apêndice aqui para obter uma explicação: https://arxiv.org/pdf/1401.4082.pdf

Horace ele
fonte

Oi, você sabe, por que, na implementação, eles dividem o padrão por 2? (ie std = torch.exp (z_var / 2)) na reparameterização?

Rika

4

Temos o nosso modelo probablístico. E quer recuperar os parâmetros do modelo. Reduzimos nossa tarefa para otimizar o limite inferior variacional (VLB). Para fazer isso, devemos ser capazes de fazer duas coisas:

calcular VLB
obter gradiente de VLB

Os autores sugerem o uso do Monte Carlo Estimator para ambos. E, na verdade, eles introduzem esse truque para obter um Estimador de Gradiente Monte Carlo da VLB mais preciso.

É apenas uma melhoria do método numérico.

Anton
fonte

2

O truque de reparameterização reduz drasticamente a variação do estimador de MC para o gradiente. Portanto, é uma técnica de redução de variação :

\nabla_{ϕ} E_{q (z^{(i)} ∣ x^{(i)}; ϕ)} [\log p (x^{(i)} ∣ z^{(i)}, w)]

$\nabla_\phi \mathbb E_{q(z^{(i)} \mid x^{(i)}; \phi)} \left[ \log p\left( x^{(i)} \mid z^{(i)}, w \right) \right]$

\nabla_{ϕ} E_{q (z^{(i)} ∣ x^{(i)}; ϕ)} [\log p (x^{(i)} ∣ z^{(i)}, w)] = E_{q (z^{(i)} ∣ x^{(i)}; ϕ)} [\log p (x^{(i)} ∣ z^{(i)}, w) \nabla_{ϕ} \log q_{ϕ} (z)]

$\nabla_\phi \mathbb E_{q(z^{(i)} \mid x^{(i)}; \phi)} \left[ \log p\left( x^{(i)} \mid z^{(i)}, w \right) \right] = \mathbb E_{q(z^{(i)} \mid x^{(i)}; \phi)} \left[ \log p\left( x^{(i)} \mid z^{(i)}, w \right) \nabla_\phi \log q_\phi(z)\right]$

p (x^{(i)} ∣ z^{(i)}, w)

$p\left( x^{(i)} \mid z^{(i)}, w \right)$

\log p (x^{(i)} ∣ z^{(i)}, w)

$\log p\left( x^{(i)} \mid z^{(i)}, w \right)$ é muito grande e o valor em si é negativo. Então teríamos alta variação.

$z^{(i)} = g(\epsilon^{(i)}, x^{(i)}, \phi)$

\nabla_{ϕ} E_{q (z^{(i)} ∣ x^{(i)}; ϕ)} [\log p (x^{(i)} ∣ z^{(i)}, w)] = E_{p (ϵ^{(i)})} [\nabla_{ϕ} \log p (x^{(i)} ∣ g (ϵ^{(i)}, x^{(i)}, ϕ), w)]

$\nabla_\phi \mathbb E_{q(z^{(i)} \mid x^{(i)}; \phi)} \left[ \log p\left( x^{(i)} \mid z^{(i)}, w \right) \right] = \mathbb E_{p(\epsilon^{(i)})} \left[ \nabla_\phi \log p\left( x^{(i)} \mid g(\epsilon^{(i)}, x^{(i)}, \phi), w \right) \right]$

$p(\epsilon^{(i)})$ $p(\epsilon^{(i)})$ $\phi$

$z^{(i)}$ $z^{(i)} = g(\epsilon^{(i)}, x^{(i)}, \phi)$

chris elgoog
fonte

Como o truque de reparameterização para os VAEs funciona e por que é importante?

Respostas: