Este é muito o caso. Modelos de aprendizado profundo, mesmo os rasos, como auto-codificadores empilhados e redes neurais, não são totalmente compreendidos. Há esforços para entender o que está acontecendo com o processo de otimização para uma função intensiva de variáveis tão complexa. Mas, esta é uma tarefa difícil.
Uma maneira que os pesquisadores estão usando para descobrir como funciona o aprendizado profundo é usar modelos generativos. Primeiro, treinamos um algoritmo de aprendizado e o manipulamos sistematicamente, enquanto solicitamos que ele gere exemplos. Observando os exemplos gerados resultantes, seremos capazes de inferir o que está acontecendo no algoritmo em um nível mais significativo. É como usar inibidores na neurociência para entender para que diferentes componentes do cérebro são usados. Por exemplo, sabemos que o córtex visual é onde está, porque, se o danificarmos, você ficará cego.
Uma questão-chave que permanece na teoria do aprendizado profundo é por que modelos tão grandes (com muito mais parâmetros que pontos de dados) não se ajustam demais aos conjuntos de dados que usamos.
A teoria clássica baseada em medidas de complexidade não explica o comportamento de redes neurais práticas. Por exemplo, estimativas da dimensão VC fornecem limites de generalização vazios. Até onde eu sei, os limites mais estreitos (superior e inferior) na dimensão VC são dados em [1] e estão na ordem do número de pesos na rede. Claramente, essa complexidade do pior caso não pode explicar como, por exemplo, uma grande redefinição generalizada no CIFAR ou MNIST.
Recentemente, houve outras tentativas de garantir a generalização das redes neurais, por exemplo, em relação ao núcleo da tangente neural ou por várias medidas normativas sobre os pesos. Respectivamente, verificou-se que eles não se aplicam a redes de tamanho praticamente e têm outras propriedades insatisfatórias [2].
Há algum trabalho na estrutura do PAC Bayes para limites não vazios, por exemplo [3]. Essas configurações, no entanto, exigem algum conhecimento da rede treinada e, portanto, têm um sabor diferente da análise clássica do PAC.
Alguns outros aspectos:
otimização: como podemos obter soluções 'boas' da descida do gradiente em um problema não convexo? (Existem algumas respostas para isso na literatura recente)
interpretabilidade: Podemos explicar em um nível intuitivo o que a rede está 'pensando'? (Não é a minha área)
referências (incompletas):
fonte
Eu gostaria de salientar que não há uma boa teoria sobre por que o aprendizado de máquina funciona em geral. Os limites de VC ainda assumem um modelo, mas a realidade não se encaixa em nenhum desses ideais matemáticos. Em última análise, quando se trata de aplicação, tudo se resume a resultados empíricos. Mesmo quantificar a semelhança entre imagens usando um algoritmo consistente com o entendimento intuitivo do ser humano é realmente difícil
De qualquer forma, o NN não funciona bem em sua forma totalmente conectada. Todas as redes de sucesso têm algum tipo de regularização embutida na arquitetura de rede (CNN, LSTM, etc).
fonte