Resultados teóricos por trás de redes neurais artificiais

13

Acabei de abordar as Redes Neurais Artificiais no curso de Aprendizado de Máquina do Coursera e gostaria de conhecer mais teorias por trás delas. Acho a motivação que eles imitam a biologia um tanto insatisfatória.

Na superfície, parece que em cada nível substituímos as covariáveis ​​por uma combinação linear delas. Ao fazê-lo repetidamente, permitimos o ajuste não linear do modelo. Isso levanta a questão: por que as redes neurais às vezes são preferidas apenas ao ajuste de um modelo não linear.

De maneira mais geral, eu gostaria de saber como as Redes Neurais Artificiais se encaixam na Estrutura Bayesiana de Inferência, descrita em detalhes no livro de ET Jaynes, "Probability Theory: The Logic Of Science". Ou, para simplificar, por que as redes neurais artificiais funcionam quando funcionam? E, é claro, o fato de fazerem previsões bem-sucedidas implica que elas sigam a estrutura mencionada acima.

Tom Artiom Fiodorov
fonte

Respostas:

16

Aqui está uma citação de " Um olhar para trás para o futuro ", de ET Jaynes.

New Adhockeries

Nos últimos anos, o hábito ortodoxo de inventar dispositivos intuitivos, em vez de apelar a quaisquer princípios teóricos conectados, foi estendido a novos problemas de uma maneira que faz parecer a princípio que vários novos campos da ciência foram criados. No entanto, todos eles se preocupam com o raciocínio a partir de informações incompletas; e acreditamos que temos teoremas que estabelecem que a teoria da probabilidade como lógica é o meio geral de lidar com todos esses problemas. Notamos três exemplos.

Conjuntos difusos são - obviamente, para qualquer pessoa treinada em inferência bayesiana - aproximações grosseiras às probabilidades anteriores bayesianas. Eles foram criados apenas porque seus praticantes persistiram em pensar em probabilidade em termos de uma "aleatoriedade" que deveria existir na Natureza, mas nunca bem definida; e assim concluímos que a teoria da probabilidade não é aplicável a tais problemas. Assim que se reconhece a probabilidade como a maneira geral de especificar informações incompletas , o motivo da introdução de Conjuntos difusos desaparece.

Da mesma forma, grande parte da Inteligência Artificial (IA) é uma coleção de dispositivos intuitivos para raciocinar a partir de informações incompletas que, como as mais antigas da estatística ortodoxa, são aproximações aos métodos bayesianos e utilizáveis ​​em alguma classe restrita de problemas; mas que produzem conclusões absurdas quando tentamos aplicá-las a problemas fora dessa classe. Novamente, seus praticantes são pegos nisso apenas porque continuam a pensar na probabilidade como representando uma "aleatoriedade" física em vez de informações incompletas. Na inferência bayesiana, todos esses resultados são contidos automaticamente - e de maneira trivial - sem qualquer limitação a uma classe restrita de problemas.

O grande novo desenvolvimento são as Redes Neurais, o que significa um sistema de algoritmos com a maravilhosa propriedade nova de que eles são, como o cérebro humano, adaptáveis ​​para que possam aprender com os erros do passado e se corrigir automaticamente (UAU! Que ótima nova idéia!) . De fato, não estamos surpresos ao ver que as redes neurais são realmente muito úteis em muitas aplicações; mais do que Conjuntos difusos ou AI. No entanto, as redes neurais atuais têm duas deficiências práticas; (a) Eles produzem uma saída determinada pela entrada atual mais as informações de treinamento anteriores. Este resultado é realmente uma estimativada resposta adequada, com base em todas as informações disponíveis, mas não fornece nenhuma indicação de sua precisão e, portanto, não nos diz quão próximos estamos do objetivo (ou seja, quanto mais treinamento é necessário); (b) Quando é necessária uma resposta não linear, apela-se a uma função não linear "sigmóide" padrão armazenada internamente, que com várias amplificações e misturas lineares pode ser feita para aproximar, até certo ponto, a verdadeira função não linear. (Nota: ênfase minha.)

Mas, realmente precisamos ressaltar que (1) qualquer procedimento adaptável é, por definição, um meio de levar em consideração informações incompletas; (2) o teorema de Bayes é precisamente a mãe de todos os procedimentos adaptativos; a regra geral para atualizar qualquer estado de conhecimento para levar em conta novas informações; (3) Quando esses problemas são formulados em termos bayesianos, um único cálculo produz automaticamente a melhor estimativa e sua precisão; (4) Se for requerida a não linearidade, o teorema de Bayes gera automaticamente a função não linear exata exigida pelo problema, em vez de tentar construir uma aproximação a ela por outro dispositivo ad hoc .

Em outras palavras, afirmamos que esses campos não são novos; apenas partidas falsas. Se alguém formula todos esses problemas pela prescrição bayesiana padrão, obtém automaticamente todos os seus resultados úteis de forma aprimorada. As dificuldades que as pessoas parecem ter em compreender isso são exemplos do mesmo fracasso em conceituar a relação entre a matemática abstrata e o mundo real. Assim que reconhecemos que as probabilidades não descrevem a realidade - apenas nossas informações sobre a realidade - os portões estão abertos à solução ótima de problemas de raciocínio a partir dessas informações.

Alguns comentários:

  1. A alínea a) ignora os desenvolvimentos nas redes neurais bayesianas, iniciadas no final dos anos 80 e início dos anos 90 (mas observe que o artigo de Jaynes foi escrito em 1993). Dê uma olhada neste post . Além disso, considere ler a bela tese de doutorado de Yarin Gal e assistir a esta excelente apresentação de Zoubin Ghahramani.

  2. Não vejo como a alínea (b) pode ser uma "falha". De fato, é a essência do motivo pelo qual as redes neurais podem se aproximar bem de uma grande classe de funções. Observe que as arquiteturas bem-sucedidas recentes passaram de ativações sigmoides para ReLU nas camadas internas, favorecendo "profundidade" em vez de "largura". Teoremas de aproximação foram recentemente provados para redes ReLU.

zen
fonte
2
+1 Nada é mais satisfatório do que saber exatamente onde encontrar a referência precisa e correta para uma resposta.
Sycorax diz Reinstate Monica
5
Dado que os dispositivos ad hoc demonstraram que funcionam em muitas situações, seria produtivo mostrar (ou refutar) que eles simplesmente se encaixam na estrutura bayesiana e, portanto, adquirem uma compreensão mais profunda dos adhockeries, que são tão amplamente implantados. dias. Este é o tipo de trabalho que eu estou interessado.
Tom Artiom Fiodorov
1

Antes de tudo, não empilhamos funções lineares umas nas outras para obter uma função não linear. Há uma razão clara para que as NNs nunca funcionem assim: Empilhar funções lineares entre si produziria novamente uma função linear.

todas as funções contínuas (e acredite, funções contínuas podem ser feias) animais, veja a "escada do diabo": https://en.wikipedia.org/wiki/Cantor_distribution[uma,b]x↦ =b+uma1ϕ1(x)+...+umaeuϕeu(x)eu é o tamanho da camada oculta, ou seja, polinômios em funções logísticas e formam uma álgebra por definição!). Ou seja, 'por construção', as NNs são muito expressivas.

Por que usamos NNs profundos então? A razão é que o teorema do SW acima garante apenas a existência de um tamanho de camada suficientemente grande para que possamos chegar perto da nossa função de destino (esperançosamente contínua). No entanto, o tamanho da camada necessário pode ser tão grande que nenhum computador poderia lidar com matrizes de peso desse tamanho. NNs com mais camadas ocultas parecem ser um bom compromisso entre 'precisão' e computabilidade. Eu não conheço nenhum resultado teórico que aponte na direção de "quanto" a expressividade das NNs cresce ao colocar mais camadas ocultas em comparação com apenas aumentar o tamanho da camada oculta única, mas talvez haja alguns recursos na Web ...

Podemos realmente entender NNs profundos? Exemplos de perguntas: Por que exatamente o NN prevê que este caso seja VERDADEIRO enquanto prevê que este outro caso semelhante seja FALSO? Por que exatamente classifica esse cliente como mais valioso que o outro? Eu realmente não acredito nisso. Vem com a complexidade do modelo que você não pode mais explicá-lo razoavelmente bem ... Ouvi dizer que essa ainda é uma área ativa de pesquisa, mas não conheço nenhum recurso ...

O que torna as NNs tão únicas entre todos os modelos? A verdadeira razão pela qual usamos tanto NNs hoje em dia é devido aos dois motivos a seguir:

  1. Eles vêm com uma propriedade natural de 'streaming'.
  2. Podemos vê-los ao máximo em várias direções.

TfTTT, etc) se baseia nessa propriedade. As pessoas tentaram infundir essa propriedade de streaming em outros modelos (por exemplo, Gradient Boosting), mas isso não ocorre naturalmente e não é tão barato em termos computacionais quanto na configuração da NN.

Por 2. Quero dizer que as pessoas treinaram NNs para fazer as coisas mais estranhas, mas, em princípio, elas apenas usaram a mesma estrutura: empilhando funções suaves umas nas outras e depois deixando o computador (por exemplo, PyTorch / Tensorflow) fazer a matemática suja para você, como computação a derivada da função de perda compensa os pesos. Um exemplo seria este artigoonde as pessoas usaram a abordagem RL e também aprimoraram a arquitetura do NN para aprender a linguagem complexa das substâncias químicas, ensinando-o a operar em uma pilha de memória (!). Tente fazer isso com aumento de gradiente ;-) A razão pela qual eles devem fazer isso é que o idioma dos produtos químicos é pelo menos tão 'difícil de aprender' quanto o idioma do suporte (ou seja, todo suporte de abertura tem um fechamento mais tarde na palavra ) porque a linguagem SMILES que as pessoas usam para descrever moléculas contém os símbolos '(' e ')'. Da ciência da computação teórica (hierarquia de Chomsky), sabe-se que não se pode descrever essa linguagem com um autômato regular, mas é preciso um autómato pushdown (isto é, um autômato com uma memória de pilha). Essa foi a motivação para eles (eu acho) para ensinar essa coisa estranha ao NN.

Fabian Werner
fonte
-1

"Por que funciona quando funciona?"

n

Portanto, todo aprendizado de máquina é igualmente ad hoc.

O aprendizado de máquina é semelhante à alquimia: há muitas receitas enigmáticas, você aplica uma e pode ganhar ouro. Caso contrário, basta aplicar outra receita.

Ninguém faz a pergunta que você fez, pelo menos não nas publicações que conheço.

Além disso, existe a teoria estatística da aprendizagem. A teoria da aprendizagem estatística assume que o tamanho do conjunto de treinamento vai para o infinito. A maioria dos resultados que eu conheço tem a forma: "sob certas condições, se você tiver um conjunto de treinamento grande o suficiente, poderá obter resultados quase tão bons quanto possível usando este procedimento". As estimativas do que é "suficientemente grande" estão além da imaginação.

Obviamente, o problema é que o tamanho do conjunto de treinamento não vai a lugar algum, muito menos ao infinito.

Então, acho que é um bom momento para (1) fazer esta pergunta, (2) desenvolver um aparato matemático para responder à pergunta sobre todos os possíveis algoritmos de aprendizado de máquina e (3) responder a essa pergunta.

Marina
fonte