O que é o Deep Learning Bayesiano?

13

O que é o Deep Learning Bayesiano e como ele se relaciona com as estatísticas Bayesianas tradicionais e com o Deep Learning tradicional?

Quais são os principais conceitos e matemática envolvidos? Eu poderia dizer que são apenas estatísticas bayesianas não paramétricas? Quais são suas obras seminais, bem como seus principais desenvolvimentos e aplicações atuais?

PS: O Deep Learning Bayesiano está recebendo muita atenção, veja o workshop do NIPS.

statslearner
fonte

Respostas:

10

Saindo do link do workshop do NIPS, Yee Whye Teh fez um discurso no NIPS sobre o Bayesian Deep Learning (vídeo: https://www.youtube.com/watch?v=LVBvJsTr3rg , slides: http: //csml.stats. ox.ac.uk/news/2017-12-08-ywteh-breiman-lecture/) Acho que em algum momento da conversa, Teh resumiu o aprendizado profundo bayesiano como aplicando a estrutura bayesiana a idéias de aprendizado profundo (como aprender um posterior sobre os pesos de uma rede neural) e o aprendizado bayesiano profundo como aplicar idéias do aprendizado profundo ao Estrutura bayesiana (como processos gaussianos profundos ou famílias exponenciais profundas). É claro que existem idéias que abrangem a linha entre os dois conceitos, como auto-codificadores variacionais. Quando a maioria das pessoas diz aprendizado profundo bayesiano, geralmente significa um dos dois, e isso se reflete nos artigos aceitos no workshop que você vinculou (junto com o workshop do ano anterior). Enquanto as idéias remontam ao trabalho de Neal sobre o aprendizado bayesiano de redes neurais nos anos 90 (http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.446.9306&rep=rep1&type=pdf ), e tem havido trabalho ao longo dos anos desde então, provavelmente um dos trabalhos recentes mais importantes seria o papel original do autoencoder variacional ( https://arxiv.org/pdf/1312.6114.pdf ).

aleshing
fonte
10

Eu sugeriria que você primeiro entendesse bem qual é o modelo probabilístico subjacente em uma rede neural bayesiana tradicional. A seguir, alguns termos serão escritos em negrito . Tente pesquisar esses termos no Google para encontrar informações mais detalhadas. Esta é apenas uma visão geral básica. Espero que ajude.

Vamos considerar o caso da regressão em redes neurais feedforward e estabelecer alguma notação.

Seja denote os valores dos preditores na camada de entrada . Os valores das unidades nas camadas internas serão indicados por ( z ( ) 1 , , z ( ) N ) , para(x1,,xp)=:(z1(0),,zN0(0))(z1(),,zN()) . Finalmente, temos acamada de saída ( y 1 , , y k ) = : ( z ( L ) 1 , , z ( L ) N L ) .=1,,L1 (y1,,yk)=:(z1(L),,zNL(L))

Os pesos e polarização da unidade na camada será indicado por w ( ) i j e b ( ) i , respectivamente, para = 1 , ... , L , i = 1 ... , N , e j = 1 , , N - 1 .iwij()bi()=1,...,euEu=1...,Nj=1,...,N-1

Seja a função de ativação da unidade i na camada , para = 1 , , L e i = 1 , N .gEu():RN-1REu=1,...,euEu=1...,N

As funções de ativação comumente usadas são logística , ReLU (também conhecida como parte positiva ) e tanh .

Agora, para , defina as funções de transição de camada G ( ) : R N - 1R N : ( z ( - 1 ) 1 , , z ( - 1 ) N - 1 )( z ( ) 1 , , z (=1,...,eu em que z ( ) i=g ( ) i

G():RN-1RN:(z1(-1),...,zN-1(-1))(z1(),...,zN()),
parai=1,, N .
zEu()=gEu()(j=1N-1WEuj()zj(-1)+bEu()),
Eu=1,...,N

Denotando o conjunto de pesos e desvios de todas as unidades em todas as camadas por , isto é θ = { w ( ) i j , b ( ) i : = 1 , , Lθ nossa rede neural é a família de funções G θ : R pR k obtida pela composição das funções de transição de camada: G θ = G ( L )G ( L - 1 )L ( 1 ) .

θ={WEuj(),bEu():=1,...,eu;Eu=1...,N;j=1,...,N-1},
Gθ:RpRk
Gθ=G(eu)G(eu-1)G(1).

Não há probabilidades envolvidas na descrição acima. O objetivo do negócio original da rede neural é o ajuste de funções .

O "profundo" no Deep Learning representa a existência de muitas camadas internas nas redes neurais em consideração.

{(xEu,yEu)Rp×Rk:Eu=1,...,n}

Eu=1n__yEu-Gθ(xEu)__2,
θxGθ^(x)θ^como penalidade na função objetiva ou uso de abandono durante o treinamento. Geoffrey Hinton (aka Deep Learning Godfather) e colaboradores inventaram muitas dessas coisas. Histórias de sucesso do Deep Learning estão por toda parte.

eux,y(θ,σ2)σ-nexp(-12σ2Eu=1n__yEu-Gθ(xEu)__2),
π(θ,σ2)exp(-12σ0 02=1euEu=1N((bEu())2+j=1N-1(WEuj())2))×π(σ2).

Portanto, os priores marginais dos pesos e desvios são distribuições normais com média zero e variância comum σ0 02. Esse modelo conjunto original pode ser muito mais envolvido, com o compromisso de dificultar a inferência.

O Deep Learning Bayesiano enfrenta a difícil tarefa de amostrar a partir da correspondente distribuição posterior. Após isso, as previsões são feitas naturalmente com a distribuição preditiva posterior , e as incertezas envolvidas nessas previsões são totalmente quantificadas. O Santo Graal no Bayesian Deep Learning é a construção de uma solução eficiente e escalável. Muitos métodos computacionais foram utilizados nessa busca: amostragem de Metropolis-Hastings e Gibbs , Hamiltonian Monte Carlo e, mais recentemente, inferência variacional .

Confira os vídeos da conferência NIPS para obter algumas histórias de sucesso: http://bayesiandeeplearning.org/

zen
fonte