A sofisticação topológica é necessária para promover a IA? [fechadas]

10

A atual tendência de aprendizado de máquina é interpretada por alguns novos nas disciplinas da IA ​​como significando que MLPs, CNNs e RNNs podem exibir inteligência humana. É verdade que essas estruturas ortogonais derivadas do projeto perceptron original podem categorizar, extrair recursos, adaptar-se em tempo real e aprender a reconhecer objetos em imagens ou palavras na fala.

Combinações dessas redes artificiais podem imitar padrões de design e controle. Até a aproximação de funções mais complexas, como cognição ou diálogo, é considerada teoricamente possível em redes com estado, como as RNNs, porque elas são completas de Turing.

Essa questão gira em torno de saber se a impressão criada pelo sucesso de redes profundas com base em extensões puramente ortogonais do design original do perceptron está limitando a criatividade.

Quão realista é assumir que o ajuste das dimensões de matrizes e matrizes, que são convenientes na maioria das linguagens de programação, levará de redes artificiais a cérebros artificiais?

A profundidade da rede necessária para fazer um computador aprender a coreografar uma dança ou desenvolver uma prova complexa provavelmente não convergiria, mesmo que cem racks de hardware dedicado e avançado funcionassem por um ano. Mínimos locais na superfície de erro e saturação de gradiente afetariam as corridas, tornando a convergência irrealista.

A principal razão pela qual a ortogonalidade é encontrada no design de MLP, CNN e RNN é porque os loops usados ​​para iteração de matriz são compilados para testes simples e saltos para trás na linguagem de máquina. E esse fato se aplica a todas as linguagens de nível superior, desde FORTRAN e C até Java e Python.

A estrutura de dados mais natural no nível da máquina para loops triviais são matrizes. Os loops de aninhamento fornecem o mesmo alinhamento trivial direto com matrizes multidimensionais. Eles mapeiam as estruturas matemáticas de vetores, matrizes, cubos, hipercubos e sua generalização: tensores.

Embora as bibliotecas baseadas em gráficos e os bancos de dados orientados a objetos existam há décadas e o uso da recursão para atravessar hierarquias seja abordado na maioria dos currículos de engenharia de software, dois fatos impedem a tendência geral de afastar topologias menos restritas.

  • A teoria dos grafos (vértices conectados por arestas) não é consistentemente incluída nos currículos de ciências da computação.
  • Muitas pessoas que escrevem programas trabalharam apenas com estruturas construídas em seus idiomas favoritos, como matrizes, listas ordenadas, conjuntos e mapas.

A estrutura do cérebro não está orientada para topologias cartesianas 1 como vetores ou matrizes. As redes neurais na biologia não são ortogonais. Nem sua orientação física nem as representações gráficas de seus caminhos de sinal são quadradas. A estrutura do cérebro não é representada naturalmente em ângulos de noventa graus.

Os circuitos neurais reais não podem ser representados diretamente nas formas cartesianas. Nem eles se encaixam diretamente em hierarquias recursivas. Isso ocorre devido a quatro características distintas.

  1. O paralelismo na mente é por tendência, não por iteração - Os neurônios no que aparecem como estruturas paralelas não são idênticos e são criados com exceções ao padrão aparente.
  2. Ciclos aparecem na estrutura - Grupos de neurônios nem todos apontam em uma única direção. Existem ciclos no gráfico direcionado que representa muitas redes. Existem muitos circuitos nos quais um ancestral na direção do sinal também é um descendente. É como o feedback estabilizador em circuitos analógicos.
  3. As estruturas neurais que não são paralelas também nem sempre são ortogonais. Se um ângulo de noventa graus se formar, é por acaso, não um projeto.
  4. A estrutura neural não é estática - a neuroplasticidade é o fenômeno observado onde um axônio ou dendrito pode crescer em novas direções que não estão restritas a noventa graus. A apoptose celular pode eliminar um neurônio. Um novo neurônio pode se formar.

Topologia neural complexa e paralela

Não há quase nada no cérebro que se encaixe naturalmente em uma estrutura de circuito digital ortogonal como um vetor, matriz ou cubo de registros ou endereços de memória contíguos. Sua representação em silício e as demandas de recursos que eles colocam em linguagens de programação de nível superior são radicalmente diferentes das matrizes e loops multidimensionais da álgebra básica e da geometria analítica.

Identificação do circuito neural

O cérebro é construído com estruturas topológicas 1 únicas que realizam propagação sofisticada de sinais. Eles são livres de sistemas de coordenadas cartesianas ou grades. O feedback é aninhado e não ortogonal. Eles têm equilíbrios químicos e elétricos que formam equilíbrios de pensamento, motivação e atenção superiores e inferiores.

Topologia Neural Geral

Isso é topológico 1 sofisticação necessária ou apenas um produto biológico de como o DNA constrói um vetor, matriz, cubo ou hipercubo?

À medida que a pesquisa sobre o cérebro progride, torna-se cada vez mais improvável que as estruturas cerebrais possam ser eficientemente transformadas em vias de sinal ortogonais. É improvável que as estruturas de sinal necessárias sejam matrizes de tipo homogêneo. É até possível que estruturas de processamento estocástico ou caótico possuam uma vantagem para o desenvolvimento da IA.

Simplexes não ortogonais

Topologicamente do cérebro 1 recursos sofisticados pode ser um catalisador ou mesmo uma necessidade para o surgimento de formas humanas de pensamento. Quando nos propomos a alcançar convergência em centenas de camadas de perceptrons, às vezes podemos fazê-lo funcionar. De alguma forma, estamos presos às limitações conceituais que começaram com Descartes?

Podemos escapar dessas limitações simplesmente abandonando a conveniência de programação de estruturas ortogonais? Vários pesquisadores estão trabalhando para descobrir novas orientações no design de chips VLSI. Pode ser necessário desenvolver novos tipos de linguagens de programação ou novos recursos para as existentes, para facilitar a descrição da função mental no código.

Alguns sugeriram que novas formas de matemática sejam indicadas, mas um arcabouço teórico significativo já foi criado por Leonhard Euler (gráficos), Gustav Kirchhoff (redes), Bernhard Riemann (variedades), Henri Poincaré (topologia) e Andrey Markov (gráficos de ação). ), Richard Hook Richens (lingüística computacional) e outros para apoiar um progresso significativo da IA ​​antes que a matemática precise ser estendida.

O próximo passo no desenvolvimento da IA ​​é adotar a sofisticação topológica?


Notas de rodapé

[1] Esta pergunta usa apenas a palavra topologia para se referir à definição matemática de longa data da palavra. Embora o termo tenha sido distorcido por algum jargão emergente, nenhuma dessas distorções é pretendida nesta questão. As distorções incluem (a) chamar uma matriz de larguras de camadas da topologia da rede e (b) chamar a textura de uma superfície como topoLOGy quando o termo correto seria topoGRAPHy. Tais distorções confundem a comunicação de idéias como as descritas nesta pergunta, que não estão relacionadas a (a) ou (b).


Referências

Cliques de neurônios ligados a cavidades fornecem um elo perdido entre as fronteiras de estrutura e função na neurociência computacional, 12 de junho de 2017, Michael W. Reimann et. al. https://www.frontiersin.org/articles/10.3389/fncom.2017.00048/full , https://doi.org/10.3389/fncom.2017.00048

Um fuzzy neural auto-construtivo on-line, rede de inferência e suas aplicações, Chia-Feng Juang e Chin-Teng Lin, transações IEEE em sistemas difusos, v6, n1, 1998, https://ir.nctu.edu.tw/ bitstream / 11536/32809/1 / 000072774800002.pdf

Redes Neurais de Sequência de Gated Gated Yujia Li e Richard Zemel, artigo da conferência ICLR, 2016, https://arxiv.org/pdf/1511.05493.pdf

Construindo Máquinas que Aprendem e Pensam Como Pessoas, Brenden M. Lake, Tomer D. Ullman, Joshua B. Tenenbaum e Samuel J. Gershman, Ciências do Comportamento e do Cérebro, 2016, https://arxiv.org/pdf/1604.00289.pdf

Aprendendo a compor redes neurais para responder perguntas, Jacob Andreas, Marcus Rohrbach, Trevor Darrell e Dan Klein, UC Berkeley, 2016, https://arxiv.org/pdf/1601.01705.pdf

Aprendendo várias camadas de representação Geoffrey E. Hinton, Departamento de Ciência da Computação, Universidade de Toronto, 2007, http://www.csri.utoronto.ca/~hinton/absps/ticsdraft.pdf

Redes neurais profundas pré-treinadas e dependentes de contexto para reconhecimento de fala de grande vocabulário, George E. Dahl, Dong Yu, Li Deng e Alex Acero, IEEE Transactions on Audio, Speach, and Language Processing 2012, https: //s3.amazonaws .com / academia.edu.documents / 34691735 / dbn4lvcsr-transaslp.pdf? AWSAccessKeyId = AKIAIWOWYYGZ2Y53UL3A & Expira = 1534211789 & Signature = 33QcFP0JGFeA% 2FTsqjQZ -X-line-%

Incorporando entidades e relações para aprendizagem e inferência em bases de conhecimento, Bishan Yang1, Wen-tau Yih2, Xiaodong He2, Jianfeng Gao2 e Li Deng2, documento da conferência ICLR, 2015, https://arxiv.org/pdf/1412.6575.pdf

Um algoritmo de aprendizado rápido para redes de crenças profundas, Geoffrey E. Hinton, Simon Osindero, Yee-Whye Teh (comunicado por Yann Le Cun), Neural Computation 18, 2006, http://axon.cs.byu.edu/Dan/778 / papers / Deep% 20Networks / hinton1 * .pdf

FINN: Uma estrutura para inferência rápida e escalonável de redes neurais binárias Yaman Umuroglu, et al, 2016, https://arxiv.org/pdf/1612.07119.pdf

Do aprendizado de máquina ao raciocínio de máquina, Léon Bottou, 8/2/2011, https://arxiv.org/pdf/1102.1808.pdf

Progresso na pesquisa do cérebro, neurociência: do molecular ao cognitivo, capítulo 15: Transmissão química no cérebro: regulação homeostática e suas implicações funcionais, Floyd E. Bloom (editor), 1994, https://doi.org/10.1016/ S0079-6123 (08) 60776-1

Neural Turing Machine (apresentação de slides), Autor: Alex Graves, Greg Wayne, Ivo Danihelka, Apresentado por: Tinghui Wang (Steve), https://eecs.wsu.edu/~cook/aiseminar/papers/steve.pdf

Máquinas de Turing Neural (papel), Alex Graves, Greg Wayne, Ivo Danihelka, 2014, https://pdfs.semanticscholar.org/c112/6fbffd6b8547a44c58b192b36b08b18299de.pdf

Aprendizado por Reforço, Máquinas de Turing Neural, Wojciech Zaremba, Ilya Sutskever, documento da conferência ICLR, 2016, https://arxiv.org/pdf/1505.00521.pdf?utm_content=buffer2aaa3&utm_medium=social&utm_source=twitter.com&utm_ampaign

Máquina de Turing Neural Dinâmica com Esquemas de Endereçamento Contínuo e Discreto, Caglar Gulcehre1, Sarath Chandar1, Kyunghyun Cho2, Yoshua Bengio1, 2017, https://arxiv.org/pdf/1607.00036.pdf

Aprendizado profundo, Yann LeCun, Yoshua Bengio3 e Geoffrey Hinton, Nature, vol 521, 2015, https://www.evl.uic.edu/creativecoding/courses/cs523/slides/week3/DeepLearning_LeCun.pdf

Redes neurais profundas pré-treinadas e dependentes de contexto para reconhecimento de fala de grande vocabulário, transações IEEE em processamento de áudio, discurso e linguagem, vol 20, no 1 George E. Dahl, Dong Yu, Li Deng e Alex Acero, 2012, https : //www.cs.toronto.edu/~gdahl/papers/DBN4LVCSR-TransASLP.pdf

A topologia do clique revela estrutura geométrica intrínseca nas correlações neurais, Chad Giusti, Eva Pastalkova, Carina Curto, Vladimir Itskov, William Bialek PNAS, 2015, https://doi.org/10.1073/pnas.1506407112 , http: //www.pnas. org / content / 112/44 / 13455.full? utm_content = bufferb00a4 & utm_medium = social & utm_source = twitter.com & utm_campaign = buffer

UCL, London Neurological Newsletter, julho de 2018 Barbara Kramarz (editora), http://www.ucl.ac.uk/functional-gene-annotation/neurological/newsletter/Issue17

Douglas Daseeco
fonte
2
Não tenho uma boa resposta para isso, mas há um esforço paralelo em andamento no problema de aprender as estruturas das redes bayesianas ou casuais a partir de dados. Acredita-se que isso seja difícil e, talvez, computacionalmente intratável. Não sei se as técnicas atuais são boas, mas parece uma direção muito promissora se os problemas básicos puderem ser resolvidos. Acho que o trabalho de Peter Van Beek pode ser um bom ponto de partida para ler sobre isso: cs.uwaterloo.ca/~vanbeek/Research/research_ml.html
John Doucette
2
Recentemente, eu estava lendo um pouco do livro de Bohm sobre mecânica quântica e uma das primeiras coisas que ele define é a ortogonalidade em relação aos vetores próprios . (Veja também este wiki sobre o uso em biologia .) Ainda estou tentando entender meus conceitos, mas parece que a ortogonalidade pode ser generalizada e não está restrita à geometria euclidiana.
DukeZhou
teoria dos grafos é parte de uma educação CS, mas não por razões que você imagina ... principalmente eu acho que tem a ver com roteamento eficiente de informações entre redes
kc sayz 'kc sayz'
11
@DukeZhou qualquer coisa para simplificar ... Eles até fazem o tempo dt ortogonal. Como você faz o tempo ortogonal? Somente matemáticos podem responder #
DuttaA

Respostas:

3

Sim definitivamente.

O software de IA não deve ser excessivamente ligado a tensores. A representação natural de uma rede é uma rede, não uma matriz.

Matemática bem ajustada para IA

Vértices conectados por arestas direcionadas são o equivalente matemático mais próximo do funcionamento dos sistemas nervosos. Até o circuito de controle de uma CPU, FPU ou GPU é uma rede complexa de portas, não uma grade como a RAM.

Os pontos finais das conexões também não são as únicas propriedades significativas de uma aresta. O comprimento das arestas nos circuitos neurais é definitivamente parte do design que funciona. Isso significa que o layout de um circuito artificialmente inteligente em um computador quântico ou quase quântico pode determinar se funciona bem. O artigo do NIH Efeito da topologia e interações atrasadas na sincronização de redes neuronais explica o porquê. E esta imagem e seu artigo original confirmam.

insira a descrição da imagem aqui

Connectomics do Crescimento - A organização e reorganização das redes cerebrais durante o desenvolvimento normal e anormal

Traumatismo crâniano

Aqueles que sofrem de lesão cerebral traumática reaprendem tarefas que foram interrompidas pela lesão. A neuroplasticidade causa uma mudança física na estrutura da rede e nos circuitos em torno da área danificada, o que ajuda na reaquisição das habilidades perdidas devido à lesão.

Os neurologistas acreditam que as alterações nos axônios, dendritos e sinapses ocorrem primeiro, seguidas de alterações internas nos neurônios que se conectaram e na química nas sinopses que trabalham juntas para restaurar a função, mas a função nunca é completamente restaurada. Sempre há uma assinatura da lesão exibida no comportamento.

Isso significa que, no sistema cerebral, a matéria cinzenta que lida com funções específicas é importante.

Topologia em AI

Concordo que as pessoas estão usando o termo topologia sem ter idéia do que é.

As Sete Pontes de Königsberg podem ser o primeiro problema conhecido em topologia e Poincaré estendeu a idéia de topologia para o espaço N, mas AF Möbius e Felix Klein criaram as construções que criavam a idéia de objetos 2D e 3D que tinham apenas um lado. ou superfície.

Mobius Strip

Möbius strip

Klein Bottle

Garrafa de Klein

Problemas de Ilustração vs. Problemas na Vida Real

Abaixo está a ilustração conceitual das famosas Sete Pontes de Königsberg de Euler. O objetivo é cruzar todos os sete exatamente uma vez. É um problema que mostra que as topologias têm propriedades que podem ser determinadas tentando todas as possibilidades ou aplicando uma prova matemática.

Pontes de Euler

A topologia desse e de outros problemas da ponte pode ser representada em um tensor (especificamente uma matriz) e algoritmos podem ser usados ​​para a força bruta atacar o problema. Os sistemas de regras de produção podem inferir propriedades do tensor, e redes profundas alimentadas com seqüências de voltas geradas aleatoriamente podem aprender se o destino ou objetivo pode ser alcançado e uma sequência de navegação, se possível, usando as informações no tensor e deixando o resultado em outro tensor.

Aqui está um dos pontos de viragem reais em Königsberg.

Königsberg em uma curva de Euler

Decidir para onde se virar e de que maneira atualmente requer um cérebro humano, mesmo que um mapa esteja disponível para o computador. Teoricamente, a imagem pode ser processada em um tensor por um computador, e pode ser teoricamente possível derivar o significado dos objetos em vista e colocá-los em outro tensor, mas não é assim que o sistema visual dos animais funciona e não é assim que a cognição funciona.

Simplesmente não é a arquitetura naturalmente combinada para armazenamento de dados desse tipo de informação. A aritmética do tensor também não é o modelo computacional com correspondência natural.

As redes e algoritmos computacionais que funcionam melhor têm uma estrutura muito diferente daquela usada para armazenar e processar tensores. As redes de visão e decisão são incorporadas como redes física, sintática, semanticamente e cognitivamente.

Crítica das tradições da educação em ciência da computação

A matemática não parece ser o gargalo no desenvolvimento da IA. É um produto educacional. Parece quase uma boa idéia não permitir que alunos iniciantes trapaceiem usando matrizes ou loops durante os primeiros anos de educação em ciência da computação. Mesmo discutir matrizes, tensores e loops poderia prejudicar a capacidade do aluno de pensar de uma maneira mais transcendente da IA.

han_nah_han_
fonte