O que é o Deep Learning Bayesiano?

13

O que é o Deep Learning Bayesiano e como ele se relaciona com as estatísticas Bayesianas tradicionais e com o Deep Learning tradicional?

Quais são os principais conceitos e matemática envolvidos? Eu poderia dizer que são apenas estatísticas bayesianas não paramétricas? Quais são suas obras seminais, bem como seus principais desenvolvimentos e aplicações atuais?

PS: O Deep Learning Bayesiano está recebendo muita atenção, veja o workshop do NIPS.

bayesian deep-learning statslearner
fonte

10

Saindo do link do workshop do NIPS, Yee Whye Teh fez um discurso no NIPS sobre o Bayesian Deep Learning (vídeo: https://www.youtube.com/watch?v=LVBvJsTr3rg , slides: http: //csml.stats. ox.ac.uk/news/2017-12-08-ywteh-breiman-lecture/) Acho que em algum momento da conversa, Teh resumiu o aprendizado profundo bayesiano como aplicando a estrutura bayesiana a idéias de aprendizado profundo (como aprender um posterior sobre os pesos de uma rede neural) e o aprendizado bayesiano profundo como aplicar idéias do aprendizado profundo ao Estrutura bayesiana (como processos gaussianos profundos ou famílias exponenciais profundas). É claro que existem idéias que abrangem a linha entre os dois conceitos, como auto-codificadores variacionais. Quando a maioria das pessoas diz aprendizado profundo bayesiano, geralmente significa um dos dois, e isso se reflete nos artigos aceitos no workshop que você vinculou (junto com o workshop do ano anterior). Enquanto as idéias remontam ao trabalho de Neal sobre o aprendizado bayesiano de redes neurais nos anos 90 (http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.446.9306&rep=rep1&type=pdf ), e tem havido trabalho ao longo dos anos desde então, provavelmente um dos trabalhos recentes mais importantes seria o papel original do autoencoder variacional ( https://arxiv.org/pdf/1312.6114.pdf ).

aleshing
fonte

10

Eu sugeriria que você primeiro entendesse bem qual é o modelo probabilístico subjacente em uma rede neural bayesiana tradicional. A seguir, alguns termos serão escritos em negrito . Tente pesquisar esses termos no Google para encontrar informações mais detalhadas. Esta é apenas uma visão geral básica. Espero que ajude.

Vamos considerar o caso da regressão em redes neurais feedforward e estabelecer alguma notação.

Seja denote os valores dos preditores na camada de entrada . Os valores das unidades nas camadas internas serão indicados por , para $(x_1,\dots,x_p) =: \left(z^{(0)}_1,\dots,z^{(0)}_{N_0}\right)$ $\left(z^{(\ell)}_1,\dots,z^{(\ell)}_{N_\ell}\right)$ . Finalmente, temos acamada de saída . $\ell=1,\dots,L-1$ $(y_1,\dots,y_k) =:\left(z^{(L)}_1,\dots,z^{(L)}_{N_L}\right)$

Os pesos e polarização da unidade na camada será indicado por e , respectivamente, para , , e . $i$ $\ell$ $w^{(\ell)}_{ij}$ $b^{(\ell)}_i$ $\ell=1,\dots,L$ $i=1\dots,N_\ell$ $j=1,\dots,N_{\ell-1}$

Seja a função de ativação da unidade na camada , para e . $g^{(\ell)}_i : \mathbb{R}^{N_{\ell-1}} \to \mathbb{R}$ $i$ $\ell$ $\ell=1,\dots,L$ $i=1\dots,N_\ell$

As funções de ativação comumente usadas são logística , ReLU (também conhecida como parte positiva ) e tanh .

Agora, para , defina as funções de transição de camada $\ell=1,\dots,L$ em que

G^{(ℓ)} : R^{N_{ℓ - 1}} \to R^{N_{ℓ}} : (z_{1}^{(ℓ - 1)}, ..., z_{N_{ℓ - 1}}^{(ℓ - 1)}) \mapsto (z_{1}^{(ℓ)}, ..., z_{N_{ℓ}}^{(ℓ)}),

$G^{(\ell)} : \mathbb{R}^{N_{\ell-1}} \to \mathbb{R}^{N_\ell} : \left(z^{(\ell-1)}_1,\dots,z^{(\ell-1)}_{N_{\ell-1}} \right) \mapsto \left( z^{(\ell)}_1,\dots,z^{(\ell)}_{N_\ell} \right),$

para

.

z_{Eu}^{(ℓ)} = g_{Eu}^{(ℓ)} (\sum_{j = 1}^{N_{ℓ - 1}} W_{Eu j}^{(ℓ)} z_{j}^{(ℓ - 1)} + b_{Eu}^{(ℓ)}),

$z^{(\ell)}_i = g^{(\ell)}_i\!\left( \sum_{j=1}^{N_{\ell-1}} w^{(\ell)}_{ij} z^{(\ell-1)}_j + b^{(\ell)}_i\right),$

i = 1, \dots, N_{ℓ}

$i=1,\dots,N_{\ell}$

Denotando o conjunto de pesos e desvios de todas as unidades em todas as camadas por , isto é $\theta$ nossa rede neural é a família de funções obtida pela composição das funções de transição de camada:

θ = {W_{Eu j}^{(ℓ)}, b_{Eu}^{(ℓ)} : ℓ = 1, ..., eu; Eu = 1 ..., N_{ℓ}; j = 1, ..., N_{ℓ - 1}},

$\theta = \left\{ w^{(\ell)}_{ij},b^{(\ell)}_i : \ell=1,\dots,L \,;\, i=1\dots,N_\ell \,;\, j=1,\dots,N_{\ell-1} \right\},$

G_{θ} : R^{p} \to R^{k}

$G_\theta : \mathbb{R}^p\to\mathbb{R}^k$

G_{θ} = G^{(eu)} \circ G^{(eu - 1)} \circ \dots \circ G^{(1)} .

$G_\theta = G^{(L)} \circ G^{(L-1)} \circ \dots \circ G^{(1)}.$

Não há probabilidades envolvidas na descrição acima. O objetivo do negócio original da rede neural é o ajuste de funções .

O "profundo" no Deep Learning representa a existência de muitas camadas internas nas redes neurais em consideração.

$\{ (\mathbf{x}_i,\mathbf{y}_i) \in \mathbb{R}^p\times\mathbb{R}^k : i = 1,\dots,n \}$

\sum_{Eu = 1}^{n}__y_{Eu} - G_{θ} (x_{Eu}) {__}^{2},

$\sum_{i=1}^n \lVert \mathbf{y}_i-G_\theta(\mathbf{x}_i) \rVert^2,$

θ

$\theta$

x^{*}

$\mathbf{x}^*$

G_{\hat{θ}} (x^{*})

$G_\hat{\theta}(\mathbf{x}^*)$

\hat{θ}

$\hat{\theta}$ como penalidade na função objetiva ou uso de abandono durante o treinamento. Geoffrey Hinton (aka Deep Learning Godfather) e colaboradores inventaram muitas dessas coisas. Histórias de sucesso do Deep Learning estão por toda parte.

{eu}_{x, y} (θ, σ^{2}) \propto σ^{- n} \exp (- \frac{1}{2 σ^{2}} \sum_{Eu = 1}^{n}__y_{Eu} - G_{θ} (x_{Eu}) {__}^{2}),

$L_{\mathbf{x},\mathbf{y}}(\theta,\sigma^2)\propto \sigma^{-n} \exp\left(-\frac{1}{2\sigma^2} \sum_{i=1}^n \lVert \mathbf{y}_i-G_\theta(\mathbf{x}_i) \rVert^2\right),$

π (θ, σ^{2}) \propto \exp (- \frac{1}{2 σ_{0 0}^{2}} \sum_{ℓ = 1}^{eu} \sum_{Eu = 1}^{N_{ℓ}} ({(b_{Eu}^{(ℓ)})}^{2} + \sum_{j = 1}^{N_{ℓ - 1}} {(W_{Eu j}^{(ℓ)})}^{2})) \times π (σ^{2}) .

$\pi(\theta,\sigma^2) \propto \exp\left( -\frac{1}{2\sigma_0^2} \sum_{\ell=1}^L \sum_{i=1}^{N_\ell} \left( \left(b^{(\ell)}_i\right)^2 + \sum_{j=1}^{N_{\ell-1}} \left(w^{(\ell)}_{ij}\right)^2 \right) \right) \times \pi(\sigma^2).$

Portanto, os priores marginais dos pesos e desvios são distribuições normais com média zero e variância comum $\sigma_0^2$ . Esse modelo conjunto original pode ser muito mais envolvido, com o compromisso de dificultar a inferência.

O Deep Learning Bayesiano enfrenta a difícil tarefa de amostrar a partir da correspondente distribuição posterior. Após isso, as previsões são feitas naturalmente com a distribuição preditiva posterior , e as incertezas envolvidas nessas previsões são totalmente quantificadas. O Santo Graal no Bayesian Deep Learning é a construção de uma solução eficiente e escalável. Muitos métodos computacionais foram utilizados nessa busca: amostragem de Metropolis-Hastings e Gibbs , Hamiltonian Monte Carlo e, mais recentemente, inferência variacional .

Confira os vídeos da conferência NIPS para obter algumas histórias de sucesso: http://bayesiandeeplearning.org/

zen
fonte

O que é o Deep Learning Bayesiano?

Respostas: