O ímpeto por trás da transição do século XX do circuito analógico para o digital foi impulsionado pelo desejo de maior precisão e menor ruído. Agora, estamos desenvolvendo software onde os resultados são aproximados e o ruído tem valor positivo.
- Em redes artificiais, usamos gradientes (jacobianos) ou modelos de segundo grau (hessianos) para estimar as próximas etapas de um algoritmo convergente e definir níveis aceitáveis de imprecisão e dúvida. 1 1
- Nas estratégias de convergência, deliberadamente adicionamos ruído injetando perturbações aleatórias ou pseudo-aleatórias para melhorar a confiabilidade, basicamente saltando mínimos locais na superfície de otimização durante a convergência. 2
O que aceitamos e introduzimos deliberadamente nos atuais sistemas de IA são as mesmas coisas que levaram a eletrônica aos circuitos digitais.
Por que não retornar ao circuito analógico para redes neurais e implementá-las com matrizes amplificadoras operacionais em vez de matrizes de elementos de processamento de sinal digital?
Os valores dos parâmetros artificiais de aprendizado de rede podem ser mantidos usando capacitores integrados carregados por conversores D-A, de modo que os estados aprendidos possam se beneficiar da precisão e conveniência digital, enquanto a propagação direta se beneficia de vantagens analógicas.
- Maior velocidade 3
- Ordens de magnitude menos transistores para representar células da rede
- Ruído térmico natural 4
Um artigo acadêmico ou pesquisa de patentes por redes artificiais analógicas revela muito trabalho nos últimos quarenta anos, e a tendência da pesquisa foi mantida. Os circuitos analógicos computacionais são bem desenvolvidos e fornecem uma base para matrizes neurais.
Poderia a obsessão atual pela computação digital nublar a visão comum das opções de arquitetura da IA?
O analógico híbrido é a arquitetura superior para redes artificiais?
Notas de rodapé
[1] A Estrutura de Aprendizagem do PAC (provavelmente aproximadamente correta) relaciona erro aceitável e dúvida aceitável ao tamanho da amostra necessária para a aprendizagem de tipos específicos de modelo. (Observe que representa precisão e representa confiança nessa estrutura.)
[2] É mostrada a descida do gradiente estocástico, quando estratégias e hiperparâmetros apropriados, convergem mais rapidamente durante o aprendizado e estão se tornando uma prática recomendada em aplicações típicas do mundo real de redes artificiais.
[3] O processador Intel Core i9-7960X é executado em velocidades turbo de 4,2 GHz, enquanto a transmissão via satélite fixo padrão é de 41 GHz.
[4] O ruído térmico pode ser obtido no silício amplificando e filtrando o vazamento de elétrons através de diodos zener de polarização reversa em seu ponto de avalanche. A fonte dos fenômenos quânticos é o ruído térmico Johnson-Nyquist. Sanguinetti et. al. declarar em sua 'Geração de números aleatórios quânticos em um telefone celular' (2014), "Um detector pode ser modelado como um canal com perdas com uma probabilidade de transmissão η seguida por um conversor de fótons a elétrons com eficiência unitária ... a distribuição medida será seja a combinação de incerteza quântica e ruído técnico ", e há o trabalho JTWPA da CalTech. Ambos podem se tornar padrões para a produção de ruído quântico verdadeiramente não determinístico em circuitos integrados.
Referências
- STDP: Aprendizado de patches de imagem com redes neurais de ataque convolucional , Saunders et. al. 2018, U Mass e HAS
- Aceleração de código de uso geral com computação analógica de precisão limitada , Amant et. al., 2014
- Computação analógica e simulações biológicas ganham impulso com o novo compilador MIT , por Devin Coldewey, 2016
- Retornos da computação analógica , de Larry Hardesty, 2016 *
- Por que computação analógica? , Documento desclassificado da NSA
- De volta à computação analógica: pesquisadores da Columbia mesclam computação analógica e digital em um único chip , Columbia U, 2016
- Matriz de barra cruzada programável em campo (FPCA) para computação reconfigurável , Zidan et. al., IEEE, 2017
- Infra-estrutura de computação híbrida FPAA / Memristor , Laiho et. al., IEEE, 2015
- Fundações e Paradigmas Emergentes para Computação em Células Vivas , MA, Perli, Lu, Harvard U, 2016
- Um modelo flexível de uma matriz de transistor programável em campo CMOS direcionada para a evolução de hardware (FPAA), por Zebulum, Stoica, Keymeulen, NASA / JPL, 2000
- A matriz linear personalizada incorpora até 48 ampères de precisão por microplaqueta , Ashok Bindra, 2001, Design de eletrônicos
- Matrizes analógicas programáveis em campo em larga escala para processamento de sinal analógico , Hall et. al., IEEE Transactions on Circuits and Systems, vol. 52, n. 11, 2005
- Matrizes analógicas programáveis em campo em larga escala para processamento de sinal analógico , Hall et. al. 2005
- Uma matriz VLSI de neurônios spikes de baixa potência e sinapses biestáveis com plasticidade dependente do tempo de spike , Indiveri G, Chicca E, Douglas RJ, 2006
- https://www.amazon.com/Analog-Computing-Ulmann/dp/3486728970
- https://www.amazon.com/Neural-Networks-Analog-Computation-Theoretical/dp/0817639497
fonte
Respostas:
Eu acho que há várias razões. Primeiro de tudo: flexibilidade. Com CPUs e GPUs modernas, você pode construir praticamente todos os modelos de IA que desejar e em todos os tamanhos e complexidades que desejar. Como você pode ter certeza de que o modelo que está usando no momento ainda é adequado em alguns anos? Talvez haja uma grande inovação nos NNs nos próximos anos? Talvez alguns cientistas achem que existe uma maneira muito melhor de desenvolver uma IA do que com NNs, algoritmos genéticos etc. Os chips normais podem lidar com tudo isso, e conseguem lidar com isso bem o suficiente. Mas se você deseja otimizá-lo e não se preocupar com dinheiro, é possível desenvolver uma arquitetura especializada (isso já é feito por diferentes empresas, o que aumenta bastante a velocidade de tarefas específicas).
Razão número dois: produção em massa. Quero dizer, as empresas poderiam eventualmente produzir componentes de IA analógicos altamente integrados (digamos, por exemplo, chips NN). Mas isso seria um investimento maior. Não está claro se as unidades que são flexíveis o suficiente para ser uma alternativa séria de hardware de IA podem ser facilmente produzidas em uma produção em massa-nm que pode competir contra CPUs e GPUs. Especialmente, estes últimos são altamente otimizados para realizar cálculos paralelos massivos. E, se você observar o desenvolvimento de arquiteturas semelhantes à GPU (podem fazer poucas coisas, mas muito bem) que são otimizadas adicionalmente para o aprendizado de maschines, você pode ver que seria uma competição difícil por unidades analógicas.
Todos os itens acima não significam que não haja pesquisas nessa área. Existem várias experiências que tentam arquivar isso, mas ainda não são "perigosas" para arquiteturas comuns. Eventualmente, eles virão no futuro, quando entendermos melhor a inteligência artificial e a inteligência em geral e apenas tentarmos ajustar, mas eu sou bastante cético quanto a isso.
EDIT: Além disso, algo que também pertence à flexibilidade: você pode experimentar melhor os algoritmos de IA executados em hardware digital 'normal'. Por exemplo, você pode inspecionar facilmente um NN em determinados locais, pode modificar rapidamente os dados de entrada ou fornecer dados alternativos, realmente não está vinculado a nada. E como ainda não conhecemos nem compreendemos completamente todos os modelos, quando usar quais, se houver arquiteturas melhores para uma determinada tarefa etc, não faz sentido colocar algo 'jovem' e 'experimental' em um analógico fixo arquitetura.
fonte
Resposta rápida
Quando a Intel adquiriu o Nirvana, eles indicaram sua crença de que o VLSI analógico tem seu lugar nos chips neuromórficos do futuro próximo 1, 2, 3 .
Ainda não é público se foi por causa da capacidade de explorar mais facilmente o ruído quântico natural em circuitos analógicos. É mais provável devido ao número e complexidade das funções de ativação paralela que podem ser compactadas em um único chip VLSI. O analógico tem uma vantagem de magnitude em relação ao digital nesse aspecto.
É provável que seja benéfico para os membros do AI Stack Exchange acelerar essa evolução fortemente indicada da tecnologia.
Tendências importantes e não tendências na IA
Para abordar essa questão cientificamente, é melhor contrastar a teoria dos sinais analógicos e digitais sem o viés das tendências.
Os entusiastas da inteligência artificial podem encontrar muito na web sobre aprendizado profundo, extração de recursos, reconhecimento de imagens e as bibliotecas de software para baixar e começar a experimentar imediatamente. É a maneira que a maioria deixa a desejar com a tecnologia, mas a introdução rápida à IA também tem seu lado negativo.
Quando os fundamentos teóricos das implantações bem-sucedidas precocemente da IA voltada para o consumidor não são entendidos, há suposições que entram em conflito com essas fundações. Opções importantes, como neurônios artificiais analógicos, redes com cravos e feedback em tempo real, são ignoradas. O aprimoramento de formulários, recursos e confiabilidade estão comprometidos.
O entusiasmo no desenvolvimento da tecnologia deve sempre ser temperado com pelo menos uma medida igual de pensamento racional.
Convergência e estabilidade
Em um sistema em que a precisão e a estabilidade são alcançadas através do feedback, os valores dos sinais analógicos e digitais são sempre meras estimativas.
Compreender o paralelo entre convergência por meio de correção de erros em um algoritmo digital e estabilidade alcançada por meio de feedback em instrumentação analógica é importante para refletir sobre essa questão. Esses são os paralelos usando o jargão contemporâneo, com o digital à esquerda e o analógico à direita.
Popularidade dos circuitos digitais
O principal fator no aumento da popularidade dos circuitos digitais é a contenção de ruídos. Os circuitos digitais VLSI de hoje têm longos tempos médios até a falha (tempo médio entre instâncias em que um valor de bit incorreto é encontrado).
A eliminação virtual do ruído deu aos circuitos digitais uma vantagem significativa sobre os circuitos analógicos para medição, controle PID, cálculo e outras aplicações. Com circuitos digitais, era possível medir até cinco dígitos decimais de precisão, controlar com uma precisão notável e calcular π até mil dígitos decimais de precisão, de forma repetitiva e confiável.
Foram principalmente os orçamentos de aeronáutica, defesa, balística e contramedidas que aumentaram a demanda de fabricação para alcançar a economia de escala na fabricação de circuitos digitais. A demanda por resolução de tela e velocidade de renderização está impulsionando o uso da GPU como processador de sinal digital agora.
Essas forças econômicas estão causando as melhores escolhas de design? As redes artificiais baseadas em digital são o melhor uso de imóveis VLSI preciosos? Esse é o desafio desta questão e é bom.
Realidades da complexidade do CI
Como mencionado em um comentário, são necessárias dezenas de milhares de transistores para implementar no silício um neurônio de rede artificial independente e reutilizável. Isso ocorre principalmente devido à multiplicação da matriz vetorial que leva a cada camada de ativação. São necessárias apenas algumas dezenas de transistores por neurônio artificial para implementar uma multiplicação de matriz vetorial e o conjunto de amplificadores operacionais da camada. Os amplificadores operacionais podem ser projetados para executar funções como passo binário, sigmóide, soft plus, ELU e ISRLU.
Ruído de sinal digital do arredondamento
A sinalização digital não está isenta de ruído, porque a maioria dos sinais digitais é arredondada e, portanto, aproximada. A saturação do sinal na retropropagação aparece primeiro como o ruído digital gerado a partir dessa aproximação. Saturação adicional ocorre quando o sinal é sempre arredondado para a mesma representação binária.
Às vezes, os programadores encontram os efeitos do arredondamento em números de ponto flutuante IEEE de precisão dupla ou única quando as respostas que são esperadas em 0,2 aparecerem como 0.20000000000001. Um quinto não pode ser representado com precisão perfeita como um número binário, porque 5 não é um fator de 2.
Ciência sobre mídia Hype e tendências populares
No aprendizado de máquina, como em muitos produtos de tecnologia, existem quatro principais métricas de qualidade.
Às vezes, mas nem sempre, a conquista de um compromete o outro, caso em que um equilíbrio deve ser alcançado. A descida de gradiente é uma estratégia de convergência que pode ser realizada em um algoritmo digital que equilibra bem esses quatro, e é por isso que é a estratégia dominante no treinamento de perceptrons em várias camadas e em muitas redes profundas.
Essas quatro coisas foram fundamentais para o trabalho cibernético inicial de Norbert Wiener antes dos primeiros circuitos digitais no Bell Labs ou do primeiro flip-flop realizado com tubos de vácuo. O termo cibernética é derivado do grego κυβερνήτης (pronuncia-se kyvernítis ), que significa timoneiro, onde o leme e as velas precisavam compensar as constantes mudanças de vento e corrente e o navio necessário para convergir para o porto ou porto pretendido.
A visão orientada a tendências desta pergunta pode envolver a ideia de se o VLSI pode ser alcançado para obter economia de escala para redes analógicas, mas o critério fornecido por seu autor é evitar visualizações orientadas por tendências. Mesmo que não fosse esse o caso, como mencionado acima, são necessários consideravelmente menos transistores para produzir camadas de rede artificiais com circuitos analógicos do que com os digitais. Por esse motivo, é legítimo responder à pergunta assumindo que o analógico VLSI é muito viável a um custo razoável se a atenção foi direcionada para sua realização.
Projeto de rede artificial analógica
Redes artificiais analógicas estão sendo investigadas em todo o mundo, incluindo a joint venture IBM / MIT, Nirvana da Intel, Google, Força Aérea dos EUA em 1992 5 , Tesla e muitas outras, algumas indicadas nos comentários e no adendo a este questão.
O interesse em redes analógicas para redes artificiais tem a ver com o número de funções de ativação paralela envolvidas no aprendizado, que podem caber em um milímetro quadrado de espaço em chip VLSI. Isso depende em grande parte de quantos transistores são necessários. As matrizes de atenuação (as matrizes dos parâmetros de aprendizado) 4 requerem multiplicação da matriz vetorial, o que requer um grande número de transistores e, portanto, uma parte significativa do setor imobiliário do VLSI.
Deve haver cinco componentes funcionais independentes em uma rede básica de perceptron multicamada para que esteja disponível para treinamento totalmente paralelo.
Nos circuitos analógicos, com o maior paralelismo inerente ao método de transmissão do sinal, 2 e 4 podem não ser necessários. A teoria do feedback e a análise harmônica serão aplicadas ao projeto do circuito, usando um simulador como o Spice.
Para valores comuns desses circuitos nos atuais circuitos analógicos integrados, temos um custo para os chips VLSI analógicos que convergem ao longo do tempo para um valor pelo menos três ordens de magnitude abaixo do dos chips digitais com paralelismo de treinamento equivalente.
Dirigindo-se diretamente à injeção de ruído
A pergunta afirma: "Estamos usando gradientes (jacobianos) ou modelos de segundo grau (hessianos) para estimar as próximas etapas em um algoritmo convergente e adicionando deliberadamente ruído [ou] injetando perturbações pseudo-aleatórias para melhorar a confiabilidade da convergência saltando poços locais no erro". superfície durante a convergência ".
O motivo pelo qual o ruído pseudo-aleatório é injetado no algoritmo de convergência durante o treinamento e em redes reentrantes em tempo real (como redes de reforço) é devido à existência de mínimos locais na superfície de disparidade (erro) que não são os mínimos globais desse superfície. Os mínimos globais são o estado ideal treinado da rede artificial. Mínimos locais podem estar longe de ser ótimos.
Essa superfície ilustra a função de erro dos parâmetros (dois neste caso altamente simplificado 6 ) e a questão de um mínimo local que esconde a existência do mínimo global. Os pontos baixos na superfície representam mínimos nos pontos críticos das regiões locais de convergência ideal de treinamento. 7,8
As funções de erro são simplesmente uma medida da disparidade entre o estado atual da rede durante o treinamento e o estado desejado da rede. Durante o treinamento de redes artificiais, o objetivo é encontrar o mínimo global dessa disparidade. Essa superfície existe, independentemente de os dados da amostra serem rotulados ou não e se os critérios de conclusão do treinamento são internos ou externos à rede artificial.
Se a taxa de aprendizado for pequena e o estado inicial estiver na origem do espaço do parâmetro, a convergência, usando a descida do gradiente, convergirá para o poço mais à esquerda, que é um mínimo local, não o mínimo global à direita.
Mesmo que os especialistas que inicializam a rede artificial de aprendizado sejam inteligentes o suficiente para escolher o ponto médio entre os dois mínimos, o gradiente nesse ponto ainda se inclina para o mínimo da mão esquerda e a convergência chegará a um estado de treinamento não ideal. Se a otimalidade do treinamento for crítica, como costuma ser, o treinamento falhará em obter resultados de qualidade de produção.
Uma solução em uso é adicionar entropia ao processo de convergência, que geralmente é simplesmente a injeção da saída atenuada de um gerador de números pseudo-aleatórios. Outra solução usada com menos frequência é ramificar o processo de treinamento e tentar a injeção de uma grande quantidade de entropia em um segundo processo convergente, para que haja uma pesquisa conservadora e uma pesquisa um tanto selvagem sendo executada em paralelo.
É verdade que o ruído quântico em circuitos analógicos extremamente pequenos tem maior uniformidade ao espectro de sinal desde sua entropia do que um gerador pseudo-aleatório digital e são necessários muito menos transistores para obter um ruído de maior qualidade. Se os desafios de fazê-lo nas implementações do VLSI foram superados ainda não foi divulgado pelos laboratórios de pesquisa incorporados nos governos e corporações.
Todos os três desafios são plausíveis. O que é certo e também muito interessante é como os projetistas e fabricantes facilitam o controle digital dos caminhos dos sinais analógicos e das funções de ativação para obter treinamento em alta velocidade.
Notas de rodapé
[1] https://ieeexplore.ieee.org/abstract/document/8401400/.
[2] https://spectrum.ieee.org/automaton/robotics/artificial-intelligence/analog-and-neuromorphic-chips-will-rule-robotic-age
[3] https://www.roboticstomorrow.com/article/2018/04/whats-the-difference-between-analog-and-neuromorphic-chips-in-robots/11820
[4] Atenuação refere-se à multiplicação de uma saída de sinal de uma atuação por um parâmetro treinado para fornecer um complemento a ser somado com outros para a entrada de uma ativação de uma camada subseqüente. Embora este seja um termo da física, é freqüentemente usado em engenharia elétrica e é o termo apropriado para descrever a função da multiplicação de matrizes vetoriais que atinge o que, em círculos menos instruídos, é chamado de ponderação das entradas da camada.
[5] http://www.dtic.mil/dtic/tr/fulltext/u2/a256621.pdf.
[6] Existem muitos mais de dois parâmetros em redes artificiais, mas apenas dois são representados nesta ilustração porque o gráfico só pode ser compreensível em 3-D e precisamos de uma das três dimensões para o valor da função de erro.
[8] Comandos gnuplot associados:
fonte
Instrumentação Digital das Células Analógicas
Um dos principais desafios nas redes artificiais analógicas é que a instrumentação de rede seria mais prática se fosse digital. Qualquer implementação VLSI de perceptrons analógicos, convoluções ou redes de spikes provavelmente precisará ter componentes digitais em um arranjo híbrido para várias funções.
Isso significa que a realização de uma rede de aprendizado artificial analógico de uso geral exigirá conversão de A para D e D para A. 2 O desafio do projeto do VLSI passa a evitar o acúmulo de transistores a partir da introdução de um grande número de blocos de conversão. Isso derrotaria a vantagem da densidade da realização analógica da propagação para frente e para trás.
A solução provável é usar uma matriz de travamento para distribuir sinais dos conversores D-A para capacitores e a matriz de comutação de baixo vazamento para selecionar qual valor será lido pelos conversores A-D. Isso deve ser feito sem introduzir ruído digital nos caminhos analógicos e sem degradar as cargas armazenadas ou a perda de precisão ao carregá-las.
Quão significativo é o número de transistores e rotas adicionais em um circuito fora da rede primária pode ser encontrado apenas exercitando um processo de design VLSI.
Contribuições importantes de código aberto
A Universidade de Massachusetts introduziu o repositório BindsNet de código aberto 3,4 em fevereiro de 2018. Simula redes de spikes analógicos com software e hardware digitais e aproveita a aceleração da GPU através do PyTorch.
Isso facilita a experimentação nos dias de hoje em criar designs e estratégias de rede. O sucesso do uso da simulação, se for significativo o suficiente, provavelmente levaria a projetos VLSI superiores.
Notas de rodapé
[1] Em qualquer sistema de aprendizado prático, os parâmetros aprendidos devem ser extraídos da implementação do VLSI, armazenados em um banco de dados e disponibilizados para qualquer número de sistemas de desenvolvimento, teste, UAT ou produção para implantação, análise de causa raiz de falhas, dimensionamento e recuperação de desastres. Salvar e carregar deve ser um recurso básico das redes artificiais analógicas híbridas VLSI, mesmo entre épocas durante o treinamento e durante o uso real em campo.
[2] Não se pode manter o estado aprendido de uma rede artificial em capacitores indefinidamente. Embora os capacitores tenham se tornado o componente passivo dominante para circuitos analógicos projetados em processos CMOS padrão, eles não podem ter muita capacidade e o vazamento não é zero. A meia-vida dos circuitos de armazenamento capacitivo e a precisão necessária dos valores dos parâmetros determinarão a taxa de um ciclo de leitura e de atualização condicional.
[3] Repositório de código aberto BindsNet
[4] BindsNET [paper]: Uma biblioteca de redes neurais de pico orientada para aprendizado de máquina em Python para a publicação do resumo em Harvard U do artigo BindsNet.
fonte
Estou surpreso que ninguém tenha mencionado algumas instruções específicas de pesquisa no campo da IA analógica. E também para esclarecer a Inteligência Artificial não é exatamente o mesmo que o Aprendizado de Máquina, como sugere esta resposta . Os recentes avanços na computação analógica ocorreram apenas no campo de Machine Learning.
CMOS analógico:
Primeiro, vamos falar sobre as primeiras implementações analógicas de neurônios. Dr. Giacomo Indiveri, et al. Foram alguns dos pioneiros no campo. Embora com a lógica CMOS você possa projetar redes neurais com STDP (Plasticidade dependente do tempo de pico), é difícil fazer uso nos algoritmos de Machine Learning. O cérebro humano ainda não foi totalmente compreendido, especialmente como ele comunica informações complexas com picos. As redes baseadas em spikes são boas na execução de tarefas de reconhecimento de imagem relativamente pequenas e de baixa complexidade (a maioria dos trabalhos parece mais preocupada em melhorar o desempenho do que em tarefas altamente complexas). Devido ao grande número de transistores disponíveis, podemos usá-lo em tarefas complexas.
O melhor exemplo seria o Google usando essa ideia de baixa precisão nas TPU e compensando a precisão, usando um grande número de unidades de processamento, o que está causando algum tipo de compensação entre tempo, precisão e área. Isso pode ser análogo ao grande número de transistores em um processador, embora com baixa precisão. ( Uma análise aprofundada da primeira unidade de processamento de tensores (TPU) do Google )
NOTA: Alguns podem argumentar que a tecnologia CMOS se enquadra no domínio digital, mas como não estamos usando especificamente o CMOS aqui para executar qualquer operação digital, gosto de considerá-la analógica.
As tarefas baseadas em spike são aparentemente muito boas para as redes Winner Take All (como mapas auto-organizados ), por isso é a maneira geral de implementar algoritmos de aprendizado de máquina em chips VLSI.
As redes baseadas em spikes não têm memória ideal, você não pode ter pesos de alta precisão. Eles propuseram implementar pesos biológicos ou sinapses ou memória usando capacitores, mas aparentemente enfrentam problemas semelhantes aos chips de silício normais, como vazamento de carga e também de outras não idealidades baseadas em silício e pelo que entendi, eles também podem modelar pesos limitados ( como -1, 0, 1).
Computação Digital:
Aqui, vem a computação digital. Tarefas que exigem uma alta quantidade de representação de ponto flutuante não podem ser simplesmente implementadas por picos, já que ainda não sabemos ou mesmo somos capazes de imitar completamente o biofísico ou qualquer aspecto de um verdadeiro neurônio para esse assunto. A computação digital simplesmente ajuda a transmitir mais informações e com a precisão que quisermos (se projetarmos uma CPU). Embora gargalos sejam uma desvantagem conhecida da arquitetura de Von Neumann para a computação digital, isso não representa tanto problema quanto a representação de informações por meio de picos. Os picos sempre têm uma magnitude fixa, a única maneira de transmitir informações é provavelmente por sua frequência e sinal (excitatório ou inibitório). Também a velocidade do relógio é bastante alta nos computadores modernos.
Memristors: Uma nova direção
Aqui vem a invenção mais recente, o Memristor . Esse foi de longe o dispositivo analógico mais promissor do Machine Learning. Os memristors são um conceito muito novo previsto nos anos 70 e produzido apenas em 2008. Basicamente, são RRAMs ou RAMs resisitivas. Nisto, a resistência do resistor de memória ou do memristor está diretamente relacionada à história atual passada, que é muito semelhante aos modelos biofísicos de neurônios. Eles também podem ser treinados facilmente usando matrizes de barras transversais (basicamente matriz de contatos elétricos) de memristores (matrizes de barras transversais representam matrizes de peso, a tensão aplicada ao longo de linhas ou colunas determina a propagação para a frente ou para trás).
Assim, o Memristor fornece uma rotação analógica real dos algoritmos de Machine Learning. Infelizmente, devido à sua chegada recente, existem muitos problemas que ainda precisam ser resolvidos.
Laboratório de Pesquisa em Nanoeletrônica, Universidade de Purdue
Materiais Eletroquímicos, ETH Zurich
Projeto Cérebro Humano
O Instituto MARCS para Cérebro, Comportamento e Desenvolvimento
Fotônica neuromórfica:
Recentemente, tem havido interesse no campo da fotônica neuromórfica. Aqui está um pequeno artigo sobre o mesmo. Eu não estou familiarizado com o funcionamento interno do mesmo, mas o AFAIK envolve a transmissão de informações em forma óptica dentro do próprio chip de processamento. Isso leva a algumas vantagens sobre os circuitos analógicos ou digitais normais:
fonte
Acredito que a maioria das pessoas tenha respondido à pergunta diligentemente de uma maneira realmente informativa. Gostaria apenas de dizer que usamos circuitos digitais comumente porque essa é a tecnologia existente e que definitivamente os circuitos analógicos parecem realmente promissores.
No entanto, neste momento, essa idéia não está muito bem desenvolvida, apesar da quantidade de pesquisas realizadas nos últimos anos. Até o momento, nenhuma empresa tentou implementar a idéia em nível comercial, onde eles estão fazendo esses chips para uso fora de seus laboratórios.
Além disso, essa ideia parece uma nova abordagem e tem um grande potencial.
Mas, com nossa falta de entendimento sobre como alguns modelos funcionam, outros simplesmente não funcionam por um problema; como as redes neurais realmente resolvem problemas tão complexos e muitas outras coisas. Portanto, ainda é uma tecnologia distante para alcançar todo o seu potencial.
PS: Ainda sou iniciante neste campo e acho que minha opinião não conta, se eu era redundante em algum lugar ou falhava em fornecer a resposta esperada, lamento sinceramente.
fonte
Pode-se também abordar a questão a partir do aspecto da teoria da informação:
Existem dois trade-offs para escolher:
Informações analógicas que podem representar informações de maneira mais precisa / específica, mas limitada em quantidade.
Informações digitais que não representam totalmente o mundo real, mas podem conter quantidade ilimitada de informações em alguns bits. Um bom exemplo pode ser algo como um loop for de incremento:
Qual deles é mais poderoso, então?
fonte
Hava Siegelmann
À primeira vista, a computação analógica é superior à digital. Os computadores quânticos são mais rápidos que os computadores Von-Neumann e os chips neuromórficos precisam de menos energia que os processadores Intel. Também do ponto de vista teórico, muitos falam por computadores analógicos. Hava Siegelmann pesquisou a capacidade de super-turing da rede neural, o que significa que um computador analógico pode emular um digital, mas não o contrário. Então, por que não devemos usar computação analógica?
Stephen Wolfram
A razão tem a ver com o sistema educacional. A matemática clássica que é ensinada nas escolas é a matemática analógica. É baseado em regras de slides, tabela de logaritmos e no pensamento em circuitos. Por outro lado, pensar em valores discretos de um algoritmo e descrever o mundo em zero e uns é fundamentalmente diferente e nos leva a um novo tipo de matemática. Stephen Wolfram explicou que a compreensão dos autômatos celulares é um passo importante para descrever o universo e ele está certo. Ignorar a matemática analógica e preferir aprender linguagens de computador com capacidade é um método poderoso na educação. Isso ajuda não apenas a se familiarizar com os computadores, mas também com todas as outras coisas, como medicina, literatura e economia. Mesmo que as máquinas analógicas sejam superiores em termos técnicos, devemos preferir máquinas de Turing lentas, porém discretas,
Ensino de matemática
Para entender a diferença entre computação digital e analógica, devemos nos concentrar na própria matemática que é utilizada nas escolas. Se a idéia é avançar a computação analógica, o tipo apropriado de matemática é agrupado em torno de campos elétricos, integração e diferenciação. Nas escolas, isso é ensinado sob o termo geral "Análise matemática". Este tópico foi muito importante no passado, porque a análise ajuda a construir pontes, máquinas e carros. Em todos esses domínios, é usada álgebra vetorial para descrever o espaço geométrico.
Se a computação analógica é tão poderosa, por que alguém precisa de matemática digital? Tem a ver com algoritmo. O que o planímetro e o analisador diferencial não têm para oferecer são os recursos de programação. Não é possível definir algoritmos e linguagens artificiais. Uma análise da história da matemática mostra que a teoria dos algoritmos não era muito comum no passado. Na matemática moderna, é discutido sob o termo cálculo Lambda e problema de Halting .
O engraçado é que, à primeira vista, o cálculo Lamda não tem aplicações práticas. Não é necessário se alguém quiser calcular a área de uma ponte. A teoria do algoritmo é uma escola de pensamento para melhorar o pensamento crítico. É uma filosofia necessária para os seres humanos, não para máquinas.
fonte