A atual tendência de aprendizado de máquina é interpretada por alguns novos nas disciplinas da IA como significando que MLPs, CNNs e RNNs podem exibir inteligência humana. É verdade que essas estruturas ortogonais derivadas do projeto perceptron original podem categorizar, extrair recursos, adaptar-se em tempo real e aprender a reconhecer objetos em imagens ou palavras na fala.
Combinações dessas redes artificiais podem imitar padrões de design e controle. Até a aproximação de funções mais complexas, como cognição ou diálogo, é considerada teoricamente possível em redes com estado, como as RNNs, porque elas são completas de Turing.
Essa questão gira em torno de saber se a impressão criada pelo sucesso de redes profundas com base em extensões puramente ortogonais do design original do perceptron está limitando a criatividade.
Quão realista é assumir que o ajuste das dimensões de matrizes e matrizes, que são convenientes na maioria das linguagens de programação, levará de redes artificiais a cérebros artificiais?
A profundidade da rede necessária para fazer um computador aprender a coreografar uma dança ou desenvolver uma prova complexa provavelmente não convergiria, mesmo que cem racks de hardware dedicado e avançado funcionassem por um ano. Mínimos locais na superfície de erro e saturação de gradiente afetariam as corridas, tornando a convergência irrealista.
A principal razão pela qual a ortogonalidade é encontrada no design de MLP, CNN e RNN é porque os loops usados para iteração de matriz são compilados para testes simples e saltos para trás na linguagem de máquina. E esse fato se aplica a todas as linguagens de nível superior, desde FORTRAN e C até Java e Python.
A estrutura de dados mais natural no nível da máquina para loops triviais são matrizes. Os loops de aninhamento fornecem o mesmo alinhamento trivial direto com matrizes multidimensionais. Eles mapeiam as estruturas matemáticas de vetores, matrizes, cubos, hipercubos e sua generalização: tensores.
Embora as bibliotecas baseadas em gráficos e os bancos de dados orientados a objetos existam há décadas e o uso da recursão para atravessar hierarquias seja abordado na maioria dos currículos de engenharia de software, dois fatos impedem a tendência geral de afastar topologias menos restritas.
- A teoria dos grafos (vértices conectados por arestas) não é consistentemente incluída nos currículos de ciências da computação.
- Muitas pessoas que escrevem programas trabalharam apenas com estruturas construídas em seus idiomas favoritos, como matrizes, listas ordenadas, conjuntos e mapas.
A estrutura do cérebro não está orientada para topologias cartesianas 1 como vetores ou matrizes. As redes neurais na biologia não são ortogonais. Nem sua orientação física nem as representações gráficas de seus caminhos de sinal são quadradas. A estrutura do cérebro não é representada naturalmente em ângulos de noventa graus.
Os circuitos neurais reais não podem ser representados diretamente nas formas cartesianas. Nem eles se encaixam diretamente em hierarquias recursivas. Isso ocorre devido a quatro características distintas.
- O paralelismo na mente é por tendência, não por iteração - Os neurônios no que aparecem como estruturas paralelas não são idênticos e são criados com exceções ao padrão aparente.
- Ciclos aparecem na estrutura - Grupos de neurônios nem todos apontam em uma única direção. Existem ciclos no gráfico direcionado que representa muitas redes. Existem muitos circuitos nos quais um ancestral na direção do sinal também é um descendente. É como o feedback estabilizador em circuitos analógicos.
- As estruturas neurais que não são paralelas também nem sempre são ortogonais. Se um ângulo de noventa graus se formar, é por acaso, não um projeto.
- A estrutura neural não é estática - a neuroplasticidade é o fenômeno observado onde um axônio ou dendrito pode crescer em novas direções que não estão restritas a noventa graus. A apoptose celular pode eliminar um neurônio. Um novo neurônio pode se formar.
Não há quase nada no cérebro que se encaixe naturalmente em uma estrutura de circuito digital ortogonal como um vetor, matriz ou cubo de registros ou endereços de memória contíguos. Sua representação em silício e as demandas de recursos que eles colocam em linguagens de programação de nível superior são radicalmente diferentes das matrizes e loops multidimensionais da álgebra básica e da geometria analítica.
O cérebro é construído com estruturas topológicas 1 únicas que realizam propagação sofisticada de sinais. Eles são livres de sistemas de coordenadas cartesianas ou grades. O feedback é aninhado e não ortogonal. Eles têm equilíbrios químicos e elétricos que formam equilíbrios de pensamento, motivação e atenção superiores e inferiores.
Isso é topológico 1 sofisticação necessária ou apenas um produto biológico de como o DNA constrói um vetor, matriz, cubo ou hipercubo?
À medida que a pesquisa sobre o cérebro progride, torna-se cada vez mais improvável que as estruturas cerebrais possam ser eficientemente transformadas em vias de sinal ortogonais. É improvável que as estruturas de sinal necessárias sejam matrizes de tipo homogêneo. É até possível que estruturas de processamento estocástico ou caótico possuam uma vantagem para o desenvolvimento da IA.
Topologicamente do cérebro 1 recursos sofisticados pode ser um catalisador ou mesmo uma necessidade para o surgimento de formas humanas de pensamento. Quando nos propomos a alcançar convergência em centenas de camadas de perceptrons, às vezes podemos fazê-lo funcionar. De alguma forma, estamos presos às limitações conceituais que começaram com Descartes?
Podemos escapar dessas limitações simplesmente abandonando a conveniência de programação de estruturas ortogonais? Vários pesquisadores estão trabalhando para descobrir novas orientações no design de chips VLSI. Pode ser necessário desenvolver novos tipos de linguagens de programação ou novos recursos para as existentes, para facilitar a descrição da função mental no código.
Alguns sugeriram que novas formas de matemática sejam indicadas, mas um arcabouço teórico significativo já foi criado por Leonhard Euler (gráficos), Gustav Kirchhoff (redes), Bernhard Riemann (variedades), Henri Poincaré (topologia) e Andrey Markov (gráficos de ação). ), Richard Hook Richens (lingüística computacional) e outros para apoiar um progresso significativo da IA antes que a matemática precise ser estendida.
O próximo passo no desenvolvimento da IA é adotar a sofisticação topológica?
Notas de rodapé
[1] Esta pergunta usa apenas a palavra topologia para se referir à definição matemática de longa data da palavra. Embora o termo tenha sido distorcido por algum jargão emergente, nenhuma dessas distorções é pretendida nesta questão. As distorções incluem (a) chamar uma matriz de larguras de camadas da topologia da rede e (b) chamar a textura de uma superfície como topoLOGy quando o termo correto seria topoGRAPHy. Tais distorções confundem a comunicação de idéias como as descritas nesta pergunta, que não estão relacionadas a (a) ou (b).
Referências
Cliques de neurônios ligados a cavidades fornecem um elo perdido entre as fronteiras de estrutura e função na neurociência computacional, 12 de junho de 2017, Michael W. Reimann et. al. https://www.frontiersin.org/articles/10.3389/fncom.2017.00048/full , https://doi.org/10.3389/fncom.2017.00048
Um fuzzy neural auto-construtivo on-line, rede de inferência e suas aplicações, Chia-Feng Juang e Chin-Teng Lin, transações IEEE em sistemas difusos, v6, n1, 1998, https://ir.nctu.edu.tw/ bitstream / 11536/32809/1 / 000072774800002.pdf
Redes Neurais de Sequência de Gated Gated Yujia Li e Richard Zemel, artigo da conferência ICLR, 2016, https://arxiv.org/pdf/1511.05493.pdf
Construindo Máquinas que Aprendem e Pensam Como Pessoas, Brenden M. Lake, Tomer D. Ullman, Joshua B. Tenenbaum e Samuel J. Gershman, Ciências do Comportamento e do Cérebro, 2016, https://arxiv.org/pdf/1604.00289.pdf
Aprendendo a compor redes neurais para responder perguntas, Jacob Andreas, Marcus Rohrbach, Trevor Darrell e Dan Klein, UC Berkeley, 2016, https://arxiv.org/pdf/1601.01705.pdf
Aprendendo várias camadas de representação Geoffrey E. Hinton, Departamento de Ciência da Computação, Universidade de Toronto, 2007, http://www.csri.utoronto.ca/~hinton/absps/ticsdraft.pdf
Redes neurais profundas pré-treinadas e dependentes de contexto para reconhecimento de fala de grande vocabulário, George E. Dahl, Dong Yu, Li Deng e Alex Acero, IEEE Transactions on Audio, Speach, and Language Processing 2012, https: //s3.amazonaws .com / academia.edu.documents / 34691735 / dbn4lvcsr-transaslp.pdf? AWSAccessKeyId = AKIAIWOWYYGZ2Y53UL3A & Expira = 1534211789 & Signature = 33QcFP0JGFeA% 2FTsqjQZ -X-line-%
Incorporando entidades e relações para aprendizagem e inferência em bases de conhecimento, Bishan Yang1, Wen-tau Yih2, Xiaodong He2, Jianfeng Gao2 e Li Deng2, documento da conferência ICLR, 2015, https://arxiv.org/pdf/1412.6575.pdf
Um algoritmo de aprendizado rápido para redes de crenças profundas, Geoffrey E. Hinton, Simon Osindero, Yee-Whye Teh (comunicado por Yann Le Cun), Neural Computation 18, 2006, http://axon.cs.byu.edu/Dan/778 / papers / Deep% 20Networks / hinton1 * .pdf
FINN: Uma estrutura para inferência rápida e escalonável de redes neurais binárias Yaman Umuroglu, et al, 2016, https://arxiv.org/pdf/1612.07119.pdf
Do aprendizado de máquina ao raciocínio de máquina, Léon Bottou, 8/2/2011, https://arxiv.org/pdf/1102.1808.pdf
Progresso na pesquisa do cérebro, neurociência: do molecular ao cognitivo, capítulo 15: Transmissão química no cérebro: regulação homeostática e suas implicações funcionais, Floyd E. Bloom (editor), 1994, https://doi.org/10.1016/ S0079-6123 (08) 60776-1
Neural Turing Machine (apresentação de slides), Autor: Alex Graves, Greg Wayne, Ivo Danihelka, Apresentado por: Tinghui Wang (Steve), https://eecs.wsu.edu/~cook/aiseminar/papers/steve.pdf
Máquinas de Turing Neural (papel), Alex Graves, Greg Wayne, Ivo Danihelka, 2014, https://pdfs.semanticscholar.org/c112/6fbffd6b8547a44c58b192b36b08b18299de.pdf
Aprendizado por Reforço, Máquinas de Turing Neural, Wojciech Zaremba, Ilya Sutskever, documento da conferência ICLR, 2016, https://arxiv.org/pdf/1505.00521.pdf?utm_content=buffer2aaa3&utm_medium=social&utm_source=twitter.com&utm_ampaign
Máquina de Turing Neural Dinâmica com Esquemas de Endereçamento Contínuo e Discreto, Caglar Gulcehre1, Sarath Chandar1, Kyunghyun Cho2, Yoshua Bengio1, 2017, https://arxiv.org/pdf/1607.00036.pdf
Aprendizado profundo, Yann LeCun, Yoshua Bengio3 e Geoffrey Hinton, Nature, vol 521, 2015, https://www.evl.uic.edu/creativecoding/courses/cs523/slides/week3/DeepLearning_LeCun.pdf
Redes neurais profundas pré-treinadas e dependentes de contexto para reconhecimento de fala de grande vocabulário, transações IEEE em processamento de áudio, discurso e linguagem, vol 20, no 1 George E. Dahl, Dong Yu, Li Deng e Alex Acero, 2012, https : //www.cs.toronto.edu/~gdahl/papers/DBN4LVCSR-TransASLP.pdf
A topologia do clique revela estrutura geométrica intrínseca nas correlações neurais, Chad Giusti, Eva Pastalkova, Carina Curto, Vladimir Itskov, William Bialek PNAS, 2015, https://doi.org/10.1073/pnas.1506407112 , http: //www.pnas. org / content / 112/44 / 13455.full? utm_content = bufferb00a4 & utm_medium = social & utm_source = twitter.com & utm_campaign = buffer
UCL, London Neurological Newsletter, julho de 2018 Barbara Kramarz (editora), http://www.ucl.ac.uk/functional-gene-annotation/neurological/newsletter/Issue17
fonte
Respostas:
Sim definitivamente.
O software de IA não deve ser excessivamente ligado a tensores. A representação natural de uma rede é uma rede, não uma matriz.
Matemática bem ajustada para IA
Vértices conectados por arestas direcionadas são o equivalente matemático mais próximo do funcionamento dos sistemas nervosos. Até o circuito de controle de uma CPU, FPU ou GPU é uma rede complexa de portas, não uma grade como a RAM.
Os pontos finais das conexões também não são as únicas propriedades significativas de uma aresta. O comprimento das arestas nos circuitos neurais é definitivamente parte do design que funciona. Isso significa que o layout de um circuito artificialmente inteligente em um computador quântico ou quase quântico pode determinar se funciona bem. O artigo do NIH Efeito da topologia e interações atrasadas na sincronização de redes neuronais explica o porquê. E esta imagem e seu artigo original confirmam.
Connectomics do Crescimento - A organização e reorganização das redes cerebrais durante o desenvolvimento normal e anormal
Traumatismo crâniano
Aqueles que sofrem de lesão cerebral traumática reaprendem tarefas que foram interrompidas pela lesão. A neuroplasticidade causa uma mudança física na estrutura da rede e nos circuitos em torno da área danificada, o que ajuda na reaquisição das habilidades perdidas devido à lesão.
Os neurologistas acreditam que as alterações nos axônios, dendritos e sinapses ocorrem primeiro, seguidas de alterações internas nos neurônios que se conectaram e na química nas sinopses que trabalham juntas para restaurar a função, mas a função nunca é completamente restaurada. Sempre há uma assinatura da lesão exibida no comportamento.
Isso significa que, no sistema cerebral, a matéria cinzenta que lida com funções específicas é importante.
Topologia em AI
Concordo que as pessoas estão usando o termo topologia sem ter idéia do que é.
As Sete Pontes de Königsberg podem ser o primeiro problema conhecido em topologia e Poincaré estendeu a idéia de topologia para o espaço N, mas AF Möbius e Felix Klein criaram as construções que criavam a idéia de objetos 2D e 3D que tinham apenas um lado. ou superfície.
Mobius Strip
Klein Bottle
Problemas de Ilustração vs. Problemas na Vida Real
Abaixo está a ilustração conceitual das famosas Sete Pontes de Königsberg de Euler. O objetivo é cruzar todos os sete exatamente uma vez. É um problema que mostra que as topologias têm propriedades que podem ser determinadas tentando todas as possibilidades ou aplicando uma prova matemática.
A topologia desse e de outros problemas da ponte pode ser representada em um tensor (especificamente uma matriz) e algoritmos podem ser usados para a força bruta atacar o problema. Os sistemas de regras de produção podem inferir propriedades do tensor, e redes profundas alimentadas com seqüências de voltas geradas aleatoriamente podem aprender se o destino ou objetivo pode ser alcançado e uma sequência de navegação, se possível, usando as informações no tensor e deixando o resultado em outro tensor.
Aqui está um dos pontos de viragem reais em Königsberg.
Decidir para onde se virar e de que maneira atualmente requer um cérebro humano, mesmo que um mapa esteja disponível para o computador. Teoricamente, a imagem pode ser processada em um tensor por um computador, e pode ser teoricamente possível derivar o significado dos objetos em vista e colocá-los em outro tensor, mas não é assim que o sistema visual dos animais funciona e não é assim que a cognição funciona.
Simplesmente não é a arquitetura naturalmente combinada para armazenamento de dados desse tipo de informação. A aritmética do tensor também não é o modelo computacional com correspondência natural.
As redes e algoritmos computacionais que funcionam melhor têm uma estrutura muito diferente daquela usada para armazenar e processar tensores. As redes de visão e decisão são incorporadas como redes física, sintática, semanticamente e cognitivamente.
Crítica das tradições da educação em ciência da computação
A matemática não parece ser o gargalo no desenvolvimento da IA. É um produto educacional. Parece quase uma boa idéia não permitir que alunos iniciantes trapaceiem usando matrizes ou loops durante os primeiros anos de educação em ciência da computação. Mesmo discutir matrizes, tensores e loops poderia prejudicar a capacidade do aluno de pensar de uma maneira mais transcendente da IA.
fonte