Existe realmente uma falta de teoria fundamental sobre aprendizagem profunda?

10

Ouvi várias vezes que um dos problemas fundamentais / abertos da aprendizagem profunda é a falta de "teoria geral", porque na verdade não sabemos por que a aprendizagem profunda funciona tão bem. Até a página da Wikipedia sobre aprendizado profundo tem comentários semelhantes . Essas declarações são credíveis e representativas do estado do campo?

heleone
fonte

Respostas:

5

Existe um artigo chamado Por que o Deep Learning funciona tão bem? .

"No entanto, ainda não está totalmente esclarecido por que o aprendizado profundo funciona tão bem. Ao contrário dos algoritmos GOFAI (" boa IA antiquada ") que são criados à mão e totalmente compreendidos analiticamente, muitos algoritmos que usam redes neurais artificiais são entendidos apenas em nível heurístico, onde sabemos empiricamente que determinados protocolos de treinamento que empregam grandes conjuntos de dados resultam em excelente desempenho, lembrando a situação do cérebro humano: sabemos que, se treinarmos uma criança de acordo com um determinado currículo, ela aprenderá certas habilidades - mas não temos um entendimento profundo de como o cérebro dela realiza isso ".

BlindKungFuMaster
fonte
3

Este é muito o caso. Modelos de aprendizado profundo, mesmo os rasos, como auto-codificadores empilhados e redes neurais, não são totalmente compreendidos. Há esforços para entender o que está acontecendo com o processo de otimização para uma função intensiva de variáveis ​​tão complexa. Mas, esta é uma tarefa difícil.

Uma maneira que os pesquisadores estão usando para descobrir como funciona o aprendizado profundo é usar modelos generativos. Primeiro, treinamos um algoritmo de aprendizado e o manipulamos sistematicamente, enquanto solicitamos que ele gere exemplos. Observando os exemplos gerados resultantes, seremos capazes de inferir o que está acontecendo no algoritmo em um nível mais significativo. É como usar inibidores na neurociência para entender para que diferentes componentes do cérebro são usados. Por exemplo, sabemos que o córtex visual é onde está, porque, se o danificarmos, você ficará cego.

JahKnows
fonte
2

Provavelmente depende do que se entende por "teoria fundamental", mas não há falta de rigorosa teoria quantitativa na aprendizagem profunda, algumas das quais são muito gerais, apesar das afirmações em contrário.

Um bom exemplo é o trabalho em torno de métodos de aprendizado baseados em energia. Veja, por exemplo, o trabalho de Neal & Hinton sobre inferência variacional e energia livre: http://www.cs.toronto.edu/~fritz/absps/emk.pdf

Também este guia para minimização de energia como um "quadro teórico comum para muitos modelos de aprendizagem" de Yann LeCun e colegas: http://yann.lecun.com/exdb/publis/pdf/lecun-06.pdf

E uma estrutura geral para modelos baseados em energia de Scellier e Bengio: https://arxiv.org/pdf/1602.05179.pdf

Há também o trabalho anterior de Hinton & Sejnowski, que mostra analiticamente que uma rede inspirada em Hopfield em particular + algoritmo de aprendizado não supervisionado pode aproximar a inferência ideal de Bayes: https://papers.cnl.salk.edu/PDFs/Optimal%20Perceptual%20Inference%201983 -646.pdf

Existem muitos trabalhos que vinculam o aprendizado profundo à neurociência teórica, como os seguintes, que mostram que os efeitos da retropropagação podem ser alcançados em arquiteturas neurais biologicamente plausíveis: https://arxiv.org/pdf/1411.0247.pdf

É claro que existem muitas perguntas em aberto e nenhuma teoria unificada e incontroversa, mas o mesmo pode ser dito de quase todos os campos.

a.kief
fonte
1

Sua citação na Wikipedia é questionável porque o aprendizado profundo está bem desenvolvido. De fato, existe um [citation needed]na página da Wikipedia.

Veja https://github.com/terryum/awesome-deep-learning-papers . Existem 100 artigos no link, você ainda acha que o aprendizado profundo carece de "teoria geral"?

Sim. A aprendizagem profunda é difícil de entender porque é um modelo muito complicado. Mas isso não significa que não temos as teorias.

Talvez o limepacote e seu documento: "Por que devo confiar em você?": Explicar as previsões de qualquer classificador o ajudem. O artigo sugere que devemos conseguir aproximar localmente um modelo complicado (inclui aprendizado profundo) com um modelo muito mais simples.

Olá Mundo
fonte
3
Muitas aplicações interessantes não significam que essas aplicações foram desenvolvidas após um processo rigoroso. "Hmm ... talvez eu devesse tentar 8 camadas? Ah .. funciona! Ótimo, vamos publicar os resultados."
Chris Anderson
2
"O aprendizado profundo é difícil de entender porque é um modelo muito complicado. Mas isso não significa que não temos as teorias". É verdade, mas também não temos as teorias. Há muito pouca compreensão matemática das técnicas na literatura. A maioria das explicações sobre como ou por que o aprendizado profundo funciona é baseada em intuição e empirismo, o que é bom, mas não constitui uma teoria.
user27182
0

Uma questão-chave que permanece na teoria do aprendizado profundo é por que modelos tão grandes (com muito mais parâmetros que pontos de dados) não se ajustam demais aos conjuntos de dados que usamos.

A teoria clássica baseada em medidas de complexidade não explica o comportamento de redes neurais práticas. Por exemplo, estimativas da dimensão VC fornecem limites de generalização vazios. Até onde eu sei, os limites mais estreitos (superior e inferior) na dimensão VC são dados em [1] e estão na ordem do número de pesos na rede. Claramente, essa complexidade do pior caso não pode explicar como, por exemplo, uma grande redefinição generalizada no CIFAR ou MNIST.

Recentemente, houve outras tentativas de garantir a generalização das redes neurais, por exemplo, em relação ao núcleo da tangente neural ou por várias medidas normativas sobre os pesos. Respectivamente, verificou-se que eles não se aplicam a redes de tamanho praticamente e têm outras propriedades insatisfatórias [2].

Há algum trabalho na estrutura do PAC Bayes para limites não vazios, por exemplo [3]. Essas configurações, no entanto, exigem algum conhecimento da rede treinada e, portanto, têm um sabor diferente da análise clássica do PAC.

Alguns outros aspectos:

  • otimização: como podemos obter soluções 'boas' da descida do gradiente em um problema não convexo? (Existem algumas respostas para isso na literatura recente)

  • interpretabilidade: Podemos explicar em um nível intuitivo o que a rede está 'pensando'? (Não é a minha área)

referências (incompletas):

user27182
fonte
0

Eu gostaria de salientar que não há uma boa teoria sobre por que o aprendizado de máquina funciona em geral. Os limites de VC ainda assumem um modelo, mas a realidade não se encaixa em nenhum desses ideais matemáticos. Em última análise, quando se trata de aplicação, tudo se resume a resultados empíricos. Mesmo quantificar a semelhança entre imagens usando um algoritmo consistente com o entendimento intuitivo do ser humano é realmente difícil

De qualquer forma, o NN não funciona bem em sua forma totalmente conectada. Todas as redes de sucesso têm algum tipo de regularização embutida na arquitetura de rede (CNN, LSTM, etc).

FourierFlux
fonte