Resposta não paramétrica bayesiana à aprendizagem profunda?

8

Pelo que entendi, as redes neurais profundas estão realizando o "aprendizado de representação", colocando as camadas em conjunto. Isso permite aprender estruturas dimensionais muito altas nos recursos. Obviamente, é um modelo paramétrico com números fixos de parâmetros, portanto, possui a limitação usual de que a complexidade do modelo pode ser difícil de ajustar.

Existe uma maneira bayesiana (não paramétrica) de aprender essas estruturas no espaço de recursos, permitindo que a complexidade do modelo se adapte aos dados? Os modelos relacionados incluem:

  • Dirichlet processa modelos de mistura, que permitem dividir o espaço em clusters ilimitados, permitindo que os dados escolham um número finito
  • modelos fatoriais como o Indian Buffet Process (IBP), que encontram um número potencialmente infinito de recursos latentes (também conhecidos como tópicos) que explicam os dados.

No entanto, parece que o IBP não aprende representações profundas. Há também o problema de que esses métodos são projetados para aprendizado não supervisionado e, geralmente, usamos aprendizado profundo para tarefas supervisionadas. Existe uma variante do IBP ou outros métodos que permitem que as representações cresçam conforme os dados exigem?

cgreen
fonte
Realmente não sei se as redes neurais profundas contam como um modelo paramétrico.
Skander H.

Respostas:

6

Como a outra resposta observa, uma alternativa bayesiana não paramétrica comum às redes neurais é o Processo Gaussiano . (Veja também aqui ).

No entanto, a conexão é muito mais profunda que isso. Considere a classe de modelos conhecida como Redes Neurais Bayesianas (BNN). Tais modelos são como redes neurais profundas regulares, exceto que cada peso / parâmetro na rede tem uma distribuição de probabilidade descrevendo seu valor . Uma rede neural normal é como um caso especial de um BNN, exceto que a distribuição de probabilidade em cada peso é um Dirac Delta.

Um fato interessante é que redes neurais bayesianas infinitamente amplas se tornam Processos Gaussianos sob algumas condições razoáveis.

A tese de Neal, Bayesian Learning for Neural Networks (1995) mostra isso no caso de uma rede de camada única com um IDI anterior. Trabalhos mais recentes (ver Lee et al, Deep Neural Networks as Gaussian Processes , 2018 ) estendem isso para redes mais profundas.

Portanto, talvez você possa considerar grandes BNNs como aproximações de um modelo de processo gaussiano não paramétrico.

Quanto à sua pergunta de maneira mais geral, as pessoas geralmente precisam apenas de mapeamentos no aprendizado supervisionado, o que parece não paramétrico bayesiano não ser tão comum (pelo menos por enquanto), principalmente por razões computacionais (o mesmo se aplica aos BNNs, mesmo com avanços recentes). inferência variacional). No entanto, no aprendizado não supervisionado, eles aparecem com mais frequência. Por exemplo:

user3658307
fonte