Se os valores digitais são meras estimativas, por que não retornar ao analógico para IA?

18

O ímpeto por trás da transição do século XX do circuito analógico para o digital foi impulsionado pelo desejo de maior precisão e menor ruído. Agora, estamos desenvolvendo software onde os resultados são aproximados e o ruído tem valor positivo.

Em redes artificiais, usamos gradientes (jacobianos) ou modelos de segundo grau (hessianos) para estimar as próximas etapas de um algoritmo convergente e definir níveis aceitáveis de imprecisão e dúvida. ^{1 1}
Nas estratégias de convergência, deliberadamente adicionamos ruído injetando perturbações aleatórias ou pseudo-aleatórias para melhorar a confiabilidade, basicamente saltando mínimos locais na superfície de otimização durante a convergência. ²

O que aceitamos e introduzimos deliberadamente nos atuais sistemas de IA são as mesmas coisas que levaram a eletrônica aos circuitos digitais.

Por que não retornar ao circuito analógico para redes neurais e implementá-las com matrizes amplificadoras operacionais em vez de matrizes de elementos de processamento de sinal digital?

Os valores dos parâmetros artificiais de aprendizado de rede podem ser mantidos usando capacitores integrados carregados por conversores D-A, de modo que os estados aprendidos possam se beneficiar da precisão e conveniência digital, enquanto a propagação direta se beneficia de vantagens analógicas.

Maior velocidade ³
Ordens de magnitude menos transistores para representar células da rede
Ruído térmico natural ⁴

Um artigo acadêmico ou pesquisa de patentes por redes artificiais analógicas revela muito trabalho nos últimos quarenta anos, e a tendência da pesquisa foi mantida. Os circuitos analógicos computacionais são bem desenvolvidos e fornecem uma base para matrizes neurais.

Poderia a obsessão atual pela computação digital nublar a visão comum das opções de arquitetura da IA?

O analógico híbrido é a arquitetura superior para redes artificiais?

Notas de rodapé

[1] A Estrutura de Aprendizagem do PAC (provavelmente aproximadamente correta) relaciona erro aceitável $\epsilon$ e dúvida aceitável $\delta$ ao tamanho da amostra necessária para a aprendizagem de tipos específicos de modelo. (Observe que $1 - \epsilon$ representa precisão e $1 - \delta$ representa confiança nessa estrutura.)

[2] É mostrada a descida do gradiente estocástico, quando estratégias e hiperparâmetros apropriados, convergem mais rapidamente durante o aprendizado e estão se tornando uma prática recomendada em aplicações típicas do mundo real de redes artificiais.

[3] O processador Intel Core i9-7960X é executado em velocidades turbo de 4,2 GHz, enquanto a transmissão via satélite fixo padrão é de 41 GHz.

[4] O ruído térmico pode ser obtido no silício amplificando e filtrando o vazamento de elétrons através de diodos zener de polarização reversa em seu ponto de avalanche. A fonte dos fenômenos quânticos é o ruído térmico Johnson-Nyquist. Sanguinetti et. al. declarar em sua 'Geração de números aleatórios quânticos em um telefone celular' (2014), "Um detector pode ser modelado como um canal com perdas com uma probabilidade de transmissão η seguida por um conversor de fótons a elétrons com eficiência unitária ... a distribuição medida será seja a combinação de incerteza quântica e ruído técnico ", e há o trabalho JTWPA da CalTech. Ambos podem se tornar padrões para a produção de ruído quântico verdadeiramente não determinístico em circuitos integrados.

Referências

machine-learning hardware neuromorphic-engineering analog-computing spiking-networks FauChristian
fonte

1

Eu diria que você gosta de algo. Há alguns esforços para colocar a IA em chips analógicos (acho que a Apple pode estar fazendo algo com o iphone). Não sei ao certo quantas pesquisas foram feitas, mas tenho certeza de que você pode encontrar algum white paper em algum lugar. Definitivamente, vale a pena pesquisar. Minha previsão é que em breve poderá haver chips AI programáveis com um número definido de entradas e saídas (como registros de barramento).

Zakk Diaz 12/09

Não é uma resposta completa, mas suspeito que o principal problema seja o custo. Os circuitos de impressão são super baratos em escala e ainda bem caros em pequenos lotes. GPUs discretas já são produzidas em massa e funcionam "suficientemente bem". Um chip analógico geralmente pode executar apenas uma tarefa bem, e os modelos preferidos mudam rapidamente. Um chip discreto pode ser programado para fazer muitas coisas diferentes. Se encontrarmos a "melhor" topologia para RNAs, talvez faça sentido criar chips analógicos novamente.

John Doucette 12/09

1

Uau. No meu primeiro dia neste site, encontrei alguém que compartilha um pensamento comigo. :-D

6

Eu acho que há várias razões. Primeiro de tudo: flexibilidade. Com CPUs e GPUs modernas, você pode construir praticamente todos os modelos de IA que desejar e em todos os tamanhos e complexidades que desejar. Como você pode ter certeza de que o modelo que está usando no momento ainda é adequado em alguns anos? Talvez haja uma grande inovação nos NNs nos próximos anos? Talvez alguns cientistas achem que existe uma maneira muito melhor de desenvolver uma IA do que com NNs, algoritmos genéticos etc. Os chips normais podem lidar com tudo isso, e conseguem lidar com isso bem o suficiente. Mas se você deseja otimizá-lo e não se preocupar com dinheiro, é possível desenvolver uma arquitetura especializada (isso já é feito por diferentes empresas, o que aumenta bastante a velocidade de tarefas específicas).

Razão número dois: produção em massa. Quero dizer, as empresas poderiam eventualmente produzir componentes de IA analógicos altamente integrados (digamos, por exemplo, chips NN). Mas isso seria um investimento maior. Não está claro se as unidades que são flexíveis o suficiente para ser uma alternativa séria de hardware de IA podem ser facilmente produzidas em uma produção em massa-nm que pode competir contra CPUs e GPUs. Especialmente, estes últimos são altamente otimizados para realizar cálculos paralelos massivos. E, se você observar o desenvolvimento de arquiteturas semelhantes à GPU (podem fazer poucas coisas, mas muito bem) que são otimizadas adicionalmente para o aprendizado de maschines, você pode ver que seria uma competição difícil por unidades analógicas.

Todos os itens acima não significam que não haja pesquisas nessa área. Existem várias experiências que tentam arquivar isso, mas ainda não são "perigosas" para arquiteturas comuns. Eventualmente, eles virão no futuro, quando entendermos melhor a inteligência artificial e a inteligência em geral e apenas tentarmos ajustar, mas eu sou bastante cético quanto a isso.

EDIT: Além disso, algo que também pertence à flexibilidade: você pode experimentar melhor os algoritmos de IA executados em hardware digital 'normal'. Por exemplo, você pode inspecionar facilmente um NN em determinados locais, pode modificar rapidamente os dados de entrada ou fornecer dados alternativos, realmente não está vinculado a nada. E como ainda não conhecemos nem compreendemos completamente todos os modelos, quando usar quais, se houver arquiteturas melhores para uma determinada tarefa etc, não faz sentido colocar algo 'jovem' e 'experimental' em um analógico fixo arquitetura.

Ben
fonte

Embora a economia de escala (grande volume de manufatura) seja a favor do digital hoje em dia, isso não ocorreu nos anos 80 e muitos não na década de 2040. Analógico é mais barato por transistor. Existem 128.000 transistores em um núcleo CUDA por thread e apenas 40 transistores em um amplificador operacional multiplexado. Mais importante, a questão é teórica - o que faz mais sentido tecnológico - e não o que é econômico no estado atual da economia do VLSI. Se houver algum padrão que possamos ver na tecnologia nos últimos 100 anos, o normal de hoje é a peça de museu de amanhã. - Ler os requisitos de recompensa pode ajudar.

FauChristian 13/09

Mas isso não é parecido nesse cenário? O desenvolvimento maciço desse hardware AGORA não faria sentido econômico, mas também não tecnológico. Nós simplesmente não sabemos o suficiente.

Ben Ben

Se "nós" for a associação do AI Stack Exchange, há uma forte tendência em relação ao que já foi implementado nas bibliotecas populares do Python. Porém, governos e grandes corporações também parecem interessados em aumentar redes e VLSI analógico, USAF e Intel, por exemplo. Há um impulso dos laboratórios de robótica em direção ao analógico, e os pesquisadores neocognitivos veem as RNAs como não dignas do N. do meio. O neurônio real é milhares de vezes mais complexo que uma função ReLU. O que emergirá como dominante para qual aplicativo não está claro, mas não é o mesmo que não saber o suficiente para discutir opções.

FauChristian

Você pode ter lido a palavra "puro" na pergunta. Nenhuma das pesquisas em andamento sugere analógico puro, com mostradores em vez de teclados e CRTs em vez de LCDs. Todas as propostas recentes na literatura e no desenvolvimento ativo de VLSI seguem um paradigma bem compreendido: simular analógico programável (não fixo) que pode aprender o programa como as redes artificiais digitais, e realizar em silício, sem remover a capacidade de programação ou a capacidade de aprendizado. Os sinais em tempo real podem ser analógicos, digitais ou ambos, mas o controle geral do chip é digital, como em uma GPU ou DSP.

FauChristian

O período de recompensa terminará em breve e se a aprendizagem analógica faz sentido porque pode capitalizar o ruído quântico prontamente disponível ainda não foi abordada nesta resposta. A previsão não foi indicada pela pergunta. Além disso, o orçamento massivo que parece ser direcionado ao cálculo analógico de perceptrons, convolução e redes de spikes pode muito bem prevalecer, mas apenas se a viabilidade a longo prazo for racional. Assim a pergunta.

FauChristian

6

Resposta rápida

Quando a Intel adquiriu o Nirvana, eles indicaram sua crença de que o VLSI analógico tem seu lugar nos chips neuromórficos do futuro próximo ^{1, 2, 3} .

Ainda não é público se foi por causa da capacidade de explorar mais facilmente o ruído quântico natural em circuitos analógicos. É mais provável devido ao número e complexidade das funções de ativação paralela que podem ser compactadas em um único chip VLSI. O analógico tem uma vantagem de magnitude em relação ao digital nesse aspecto.

É provável que seja benéfico para os membros do AI Stack Exchange acelerar essa evolução fortemente indicada da tecnologia.

Tendências importantes e não tendências na IA

Para abordar essa questão cientificamente, é melhor contrastar a teoria dos sinais analógicos e digitais sem o viés das tendências.

Os entusiastas da inteligência artificial podem encontrar muito na web sobre aprendizado profundo, extração de recursos, reconhecimento de imagens e as bibliotecas de software para baixar e começar a experimentar imediatamente. É a maneira que a maioria deixa a desejar com a tecnologia, mas a introdução rápida à IA também tem seu lado negativo.

Quando os fundamentos teóricos das implantações bem-sucedidas precocemente da IA voltada para o consumidor não são entendidos, há suposições que entram em conflito com essas fundações. Opções importantes, como neurônios artificiais analógicos, redes com cravos e feedback em tempo real, são ignoradas. O aprimoramento de formulários, recursos e confiabilidade estão comprometidos.

O entusiasmo no desenvolvimento da tecnologia deve sempre ser temperado com pelo menos uma medida igual de pensamento racional.

Convergência e estabilidade

Em um sistema em que a precisão e a estabilidade são alcançadas através do feedback, os valores dos sinais analógicos e digitais são sempre meras estimativas.

Valores digitais em um algoritmo convergente ou, mais precisamente, em uma estratégia projetada para convergir
Valores de sinal analógico em um circuito amplificador operacional estável

Compreender o paralelo entre convergência por meio de correção de erros em um algoritmo digital e estabilidade alcançada por meio de feedback em instrumentação analógica é importante para refletir sobre essa questão. Esses são os paralelos usando o jargão contemporâneo, com o digital à esquerda e o analógico à direita.

┌───────────────────────────────────────────────────── ─────────────┐
│ * Redes artificiais digitais * │ * Redes artificiais analógicas * │
├────────────────────────────────────────────────────── ─────────────┤
Propag Propagação direta path Caminho do sinal primário │
├────────────────────────────────────────────────────── ─────────────┤
Function Função de erro │ Função de erro │
├────────────────────────────────────────────────────── ─────────────┤
│ Convergente │ Estável │
├────────────────────────────────────────────────────── ─────────────┤
│ Saturação do gradiente │ Saturação nas entradas │
├────────────────────────────────────────────────────── ─────────────┤
│ Função de ativação function Função de transferência direta │
└───────────────────────────────────────────────────── ─────────────┘

Popularidade dos circuitos digitais

O principal fator no aumento da popularidade dos circuitos digitais é a contenção de ruídos. Os circuitos digitais VLSI de hoje têm longos tempos médios até a falha (tempo médio entre instâncias em que um valor de bit incorreto é encontrado).

A eliminação virtual do ruído deu aos circuitos digitais uma vantagem significativa sobre os circuitos analógicos para medição, controle PID, cálculo e outras aplicações. Com circuitos digitais, era possível medir até cinco dígitos decimais de precisão, controlar com uma precisão notável e calcular π até mil dígitos decimais de precisão, de forma repetitiva e confiável.

Foram principalmente os orçamentos de aeronáutica, defesa, balística e contramedidas que aumentaram a demanda de fabricação para alcançar a economia de escala na fabricação de circuitos digitais. A demanda por resolução de tela e velocidade de renderização está impulsionando o uso da GPU como processador de sinal digital agora.

Essas forças econômicas estão causando as melhores escolhas de design? As redes artificiais baseadas em digital são o melhor uso de imóveis VLSI preciosos? Esse é o desafio desta questão e é bom.

Realidades da complexidade do CI

Como mencionado em um comentário, são necessárias dezenas de milhares de transistores para implementar no silício um neurônio de rede artificial independente e reutilizável. Isso ocorre principalmente devido à multiplicação da matriz vetorial que leva a cada camada de ativação. São necessárias apenas algumas dezenas de transistores por neurônio artificial para implementar uma multiplicação de matriz vetorial e o conjunto de amplificadores operacionais da camada. Os amplificadores operacionais podem ser projetados para executar funções como passo binário, sigmóide, soft plus, ELU e ISRLU.

Ruído de sinal digital do arredondamento

A sinalização digital não está isenta de ruído, porque a maioria dos sinais digitais é arredondada e, portanto, aproximada. A saturação do sinal na retropropagação aparece primeiro como o ruído digital gerado a partir dessa aproximação. Saturação adicional ocorre quando o sinal é sempre arredondado para a mesma representação binária.

$v$ $e$ $k$ $n$ $N$

$v = \sum_{n = 0}^{N} 1_n \, 2^{\, k + e + N - n}$

Às vezes, os programadores encontram os efeitos do arredondamento em números de ponto flutuante IEEE de precisão dupla ou única quando as respostas que são esperadas em 0,2 aparecerem como 0.20000000000001. Um quinto não pode ser representado com precisão perfeita como um número binário, porque 5 não é um fator de 2.

Ciência sobre mídia Hype e tendências populares

$E = mc^2$

No aprendizado de máquina, como em muitos produtos de tecnologia, existem quatro principais métricas de qualidade.

Eficiência (que gera velocidade e economia de uso)
Confiabilidade
Precisão
Compreensibilidade (que impulsiona a manutenção)

Às vezes, mas nem sempre, a conquista de um compromete o outro, caso em que um equilíbrio deve ser alcançado. A descida de gradiente é uma estratégia de convergência que pode ser realizada em um algoritmo digital que equilibra bem esses quatro, e é por isso que é a estratégia dominante no treinamento de perceptrons em várias camadas e em muitas redes profundas.

Essas quatro coisas foram fundamentais para o trabalho cibernético inicial de Norbert Wiener antes dos primeiros circuitos digitais no Bell Labs ou do primeiro flip-flop realizado com tubos de vácuo. O termo cibernética é derivado do grego κυβερνήτης (pronuncia-se kyvernítis ), que significa timoneiro, onde o leme e as velas precisavam compensar as constantes mudanças de vento e corrente e o navio necessário para convergir para o porto ou porto pretendido.

A visão orientada a tendências desta pergunta pode envolver a ideia de se o VLSI pode ser alcançado para obter economia de escala para redes analógicas, mas o critério fornecido por seu autor é evitar visualizações orientadas por tendências. Mesmo que não fosse esse o caso, como mencionado acima, são necessários consideravelmente menos transistores para produzir camadas de rede artificiais com circuitos analógicos do que com os digitais. Por esse motivo, é legítimo responder à pergunta assumindo que o analógico VLSI é muito viável a um custo razoável se a atenção foi direcionada para sua realização.

Projeto de rede artificial analógica

Redes artificiais analógicas estão sendo investigadas em todo o mundo, incluindo a joint venture IBM / MIT, Nirvana da Intel, Google, Força Aérea dos EUA em 1992 ⁵ , Tesla e muitas outras, algumas indicadas nos comentários e no adendo a este questão.

O interesse em redes analógicas para redes artificiais tem a ver com o número de funções de ativação paralela envolvidas no aprendizado, que podem caber em um milímetro quadrado de espaço em chip VLSI. Isso depende em grande parte de quantos transistores são necessários. As matrizes de atenuação (as matrizes dos parâmetros de aprendizado) ⁴ requerem multiplicação da matriz vetorial, o que requer um grande número de transistores e, portanto, uma parte significativa do setor imobiliário do VLSI.

Deve haver cinco componentes funcionais independentes em uma rede básica de perceptron multicamada para que esteja disponível para treinamento totalmente paralelo.

A multiplicação de matrizes vetoriais que determina a amplitude da propagação direta entre as funções de ativação de cada camada
A retenção de parâmetros
As funções de ativação para cada camada
A retenção das saídas da camada de ativação para aplicar na propagação traseira
A derivada das funções de ativação para cada camada

Nos circuitos analógicos, com o maior paralelismo inerente ao método de transmissão do sinal, 2 e 4 podem não ser necessários. A teoria do feedback e a análise harmônica serão aplicadas ao projeto do circuito, usando um simulador como o Spice.

$c_p$ $c(\int r)$ $r(t, c)$ $t$ $i$ $I$ $w_i$ $\tau_p$ $\tau_a$ $\tau_d$

$c = c_p \; c(\int r(t, c) \, dt) \; \Big( \sum_{i = 0}^{I - 2} \, (\tau_p w_i w_{i-1} + \tau_a w_i + \tau_d w_i) + \tau_a w_{I-1} + \tau_d w_{I-1} \Big)$

Para valores comuns desses circuitos nos atuais circuitos analógicos integrados, temos um custo para os chips VLSI analógicos que convergem ao longo do tempo para um valor pelo menos três ordens de magnitude abaixo do dos chips digitais com paralelismo de treinamento equivalente.

Dirigindo-se diretamente à injeção de ruído

A pergunta afirma: "Estamos usando gradientes (jacobianos) ou modelos de segundo grau (hessianos) para estimar as próximas etapas em um algoritmo convergente e adicionando deliberadamente ruído [ou] injetando perturbações pseudo-aleatórias para melhorar a confiabilidade da convergência saltando poços locais no erro". superfície durante a convergência ".

O motivo pelo qual o ruído pseudo-aleatório é injetado no algoritmo de convergência durante o treinamento e em redes reentrantes em tempo real (como redes de reforço) é devido à existência de mínimos locais na superfície de disparidade (erro) que não são os mínimos globais desse superfície. Os mínimos globais são o estado ideal treinado da rede artificial. Mínimos locais podem estar longe de ser ótimos.

Essa superfície ilustra a função de erro dos parâmetros (dois neste caso altamente simplificado ⁶ ) e a questão de um mínimo local que esconde a existência do mínimo global. Os pontos baixos na superfície representam mínimos nos pontos críticos das regiões locais de convergência ideal de treinamento. ^7,8

As funções de erro são simplesmente uma medida da disparidade entre o estado atual da rede durante o treinamento e o estado desejado da rede. Durante o treinamento de redes artificiais, o objetivo é encontrar o mínimo global dessa disparidade. Essa superfície existe, independentemente de os dados da amostra serem rotulados ou não e se os critérios de conclusão do treinamento são internos ou externos à rede artificial.

Se a taxa de aprendizado for pequena e o estado inicial estiver na origem do espaço do parâmetro, a convergência, usando a descida do gradiente, convergirá para o poço mais à esquerda, que é um mínimo local, não o mínimo global à direita.

Mesmo que os especialistas que inicializam a rede artificial de aprendizado sejam inteligentes o suficiente para escolher o ponto médio entre os dois mínimos, o gradiente nesse ponto ainda se inclina para o mínimo da mão esquerda e a convergência chegará a um estado de treinamento não ideal. Se a otimalidade do treinamento for crítica, como costuma ser, o treinamento falhará em obter resultados de qualidade de produção.

Uma solução em uso é adicionar entropia ao processo de convergência, que geralmente é simplesmente a injeção da saída atenuada de um gerador de números pseudo-aleatórios. Outra solução usada com menos frequência é ramificar o processo de treinamento e tentar a injeção de uma grande quantidade de entropia em um segundo processo convergente, para que haja uma pesquisa conservadora e uma pesquisa um tanto selvagem sendo executada em paralelo.

É verdade que o ruído quântico em circuitos analógicos extremamente pequenos tem maior uniformidade ao espectro de sinal desde sua entropia do que um gerador pseudo-aleatório digital e são necessários muito menos transistores para obter um ruído de maior qualidade. Se os desafios de fazê-lo nas implementações do VLSI foram superados ainda não foi divulgado pelos laboratórios de pesquisa incorporados nos governos e corporações.

Esses elementos estocásticos usados para injetar quantidades medidas de aleatoriedade para aumentar a velocidade e a confiabilidade do treinamento serão adequadamente imunes ao ruído externo durante o treinamento?
Eles serão suficientemente protegidos contra conversas internas?
Surgirá uma demanda que reduzirá o custo da fabricação de VLSI o suficiente para atingir um ponto de maior uso fora das empresas de pesquisa altamente financiadas?

Todos os três desafios são plausíveis. O que é certo e também muito interessante é como os projetistas e fabricantes facilitam o controle digital dos caminhos dos sinais analógicos e das funções de ativação para obter treinamento em alta velocidade.

Notas de rodapé

[1] https://ieeexplore.ieee.org/abstract/document/8401400/.

[2] https://spectrum.ieee.org/automaton/robotics/artificial-intelligence/analog-and-neuromorphic-chips-will-rule-robotic-age

[3] https://www.roboticstomorrow.com/article/2018/04/whats-the-difference-between-analog-and-neuromorphic-chips-in-robots/11820

[4] Atenuação refere-se à multiplicação de uma saída de sinal de uma atuação por um parâmetro treinado para fornecer um complemento a ser somado com outros para a entrada de uma ativação de uma camada subseqüente. Embora este seja um termo da física, é freqüentemente usado em engenharia elétrica e é o termo apropriado para descrever a função da multiplicação de matrizes vetoriais que atinge o que, em círculos menos instruídos, é chamado de ponderação das entradas da camada.

[5] http://www.dtic.mil/dtic/tr/fulltext/u2/a256621.pdf.

[6] Existem muitos mais de dois parâmetros em redes artificiais, mas apenas dois são representados nesta ilustração porque o gráfico só pode ser compreensível em 3-D e precisamos de uma das três dimensões para o valor da função de erro.

$z = (x-2)^2 + (y-2)^2 + 60 - \frac {40} {\sqrt{1 + (y - 1.1)^2 + (x - 0.9)^2}} - \frac {40} {(1 + {((y - 2.2)^2 + (x - 3.1)^2)}^4)}$

[8] Comandos gnuplot associados:

set title "Error Surface Showing How Global Optimum Can be Missed"
set xlabel "x"
set ylabel "y"
set pm3d at b
set ticslevel 0.8
set isosample 40,40
set xrange [0:4]
set yrange [0:4]
set nokey
splot (x-2)**2 + (y-2)**2 + 60 \
    - 40 / sqrt(1+(y-1.1)**2+(x-0.9)**2) \
    - 40 / (1+(y-2.2)**2+(x-3.1)**2)**4

Douglas Daseeco
fonte

4

Instrumentação Digital das Células Analógicas

Um dos principais desafios nas redes artificiais analógicas é que a instrumentação de rede seria mais prática se fosse digital. Qualquer implementação VLSI de perceptrons analógicos, convoluções ou redes de spikes provavelmente precisará ter componentes digitais em um arranjo híbrido para várias funções.

Indicadores de saúde
Indicadores de falha
Arquivo e recuperação de parâmetros aprendidos ¹
Controle geral do sistema
Definindo hiperparâmetros
Estatísticas operacionais
Introspecção para desenvolvimento e depuração
Pontos de interrupção
Auditabilidade

Isso significa que a realização de uma rede de aprendizado artificial analógico de uso geral exigirá conversão de A para D e D para A. ² O desafio do projeto do VLSI passa a evitar o acúmulo de transistores a partir da introdução de um grande número de blocos de conversão. Isso derrotaria a vantagem da densidade da realização analógica da propagação para frente e para trás.

A solução provável é usar uma matriz de travamento para distribuir sinais dos conversores D-A para capacitores e a matriz de comutação de baixo vazamento para selecionar qual valor será lido pelos conversores A-D. Isso deve ser feito sem introduzir ruído digital nos caminhos analógicos e sem degradar as cargas armazenadas ou a perda de precisão ao carregá-las.

Quão significativo é o número de transistores e rotas adicionais em um circuito fora da rede primária pode ser encontrado apenas exercitando um processo de design VLSI.

Contribuições importantes de código aberto

A Universidade de Massachusetts introduziu o repositório BindsNet de código aberto ^3,4 em fevereiro de 2018. Simula redes de spikes analógicos com software e hardware digitais e aproveita a aceleração da GPU através do PyTorch.

Isso facilita a experimentação nos dias de hoje em criar designs e estratégias de rede. O sucesso do uso da simulação, se for significativo o suficiente, provavelmente levaria a projetos VLSI superiores.

Notas de rodapé

[1] Em qualquer sistema de aprendizado prático, os parâmetros aprendidos devem ser extraídos da implementação do VLSI, armazenados em um banco de dados e disponibilizados para qualquer número de sistemas de desenvolvimento, teste, UAT ou produção para implantação, análise de causa raiz de falhas, dimensionamento e recuperação de desastres. Salvar e carregar deve ser um recurso básico das redes artificiais analógicas híbridas VLSI, mesmo entre épocas durante o treinamento e durante o uso real em campo.

[2] Não se pode manter o estado aprendido de uma rede artificial em capacitores indefinidamente. Embora os capacitores tenham se tornado o componente passivo dominante para circuitos analógicos projetados em processos CMOS padrão, eles não podem ter muita capacidade e o vazamento não é zero. A meia-vida dos circuitos de armazenamento capacitivo e a precisão necessária dos valores dos parâmetros determinarão a taxa de um ciclo de leitura e de atualização condicional.

[3] Repositório de código aberto BindsNet

[4] BindsNET [paper]: Uma biblioteca de redes neurais de pico orientada para aprendizado de máquina em Python para a publicação do resumo em Harvard U do artigo BindsNet.

FauChristian
fonte

4

Estou surpreso que ninguém tenha mencionado algumas instruções específicas de pesquisa no campo da IA analógica. E também para esclarecer a Inteligência Artificial não é exatamente o mesmo que o Aprendizado de Máquina, como sugere esta resposta . Os recentes avanços na computação analógica ocorreram apenas no campo de Machine Learning.

CMOS analógico:

Primeiro, vamos falar sobre as primeiras implementações analógicas de neurônios. Dr. Giacomo Indiveri, et al. Foram alguns dos pioneiros no campo. Embora com a lógica CMOS você possa projetar redes neurais com STDP (Plasticidade dependente do tempo de pico), é difícil fazer uso nos algoritmos de Machine Learning. O cérebro humano ainda não foi totalmente compreendido, especialmente como ele comunica informações complexas com picos. As redes baseadas em spikes são boas na execução de tarefas de reconhecimento de imagem relativamente pequenas e de baixa complexidade (a maioria dos trabalhos parece mais preocupada em melhorar o desempenho do que em tarefas altamente complexas). Devido ao grande número de transistores disponíveis, podemos usá-lo em tarefas complexas.

O melhor exemplo seria o Google usando essa ideia de baixa precisão nas TPU e compensando a precisão, usando um grande número de unidades de processamento, o que está causando algum tipo de compensação entre tempo, precisão e área. Isso pode ser análogo ao grande número de transistores em um processador, embora com baixa precisão. ( Uma análise aprofundada da primeira unidade de processamento de tensores (TPU) do Google )

NOTA: Alguns podem argumentar que a tecnologia CMOS se enquadra no domínio digital, mas como não estamos usando especificamente o CMOS aqui para executar qualquer operação digital, gosto de considerá-la analógica.

As tarefas baseadas em spike são aparentemente muito boas para as redes Winner Take All (como mapas auto-organizados ), por isso é a maneira geral de implementar algoritmos de aprendizado de máquina em chips VLSI.

As redes baseadas em spikes não têm memória ideal, você não pode ter pesos de alta precisão. Eles propuseram implementar pesos biológicos ou sinapses ou memória usando capacitores, mas aparentemente enfrentam problemas semelhantes aos chips de silício normais, como vazamento de carga e também de outras não idealidades baseadas em silício e pelo que entendi, eles também podem modelar pesos limitados ( como -1, 0, 1).

Computação Digital:

Aqui, vem a computação digital. Tarefas que exigem uma alta quantidade de representação de ponto flutuante não podem ser simplesmente implementadas por picos, já que ainda não sabemos ou mesmo somos capazes de imitar completamente o biofísico ou qualquer aspecto de um verdadeiro neurônio para esse assunto. A computação digital simplesmente ajuda a transmitir mais informações e com a precisão que quisermos (se projetarmos uma CPU). Embora gargalos sejam uma desvantagem conhecida da arquitetura de Von Neumann para a computação digital, isso não representa tanto problema quanto a representação de informações por meio de picos. Os picos sempre têm uma magnitude fixa, a única maneira de transmitir informações é provavelmente por sua frequência e sinal (excitatório ou inibitório). Também a velocidade do relógio é bastante alta nos computadores modernos.

Memristors: Uma nova direção

Aqui vem a invenção mais recente, o Memristor . Esse foi de longe o dispositivo analógico mais promissor do Machine Learning. Os memristors são um conceito muito novo previsto nos anos 70 e produzido apenas em 2008. Basicamente, são RRAMs ou RAMs resisitivas. Nisto, a resistência do resistor de memória ou do memristor está diretamente relacionada à história atual passada, que é muito semelhante aos modelos biofísicos de neurônios. Eles também podem ser treinados facilmente usando matrizes de barras transversais (basicamente matriz de contatos elétricos) de memristores (matrizes de barras transversais representam matrizes de peso, a tensão aplicada ao longo de linhas ou colunas determina a propagação para a frente ou para trás).

Assim, o Memristor fornece uma rotação analógica real dos algoritmos de Machine Learning. Infelizmente, devido à sua chegada recente, existem muitos problemas que ainda precisam ser resolvidos.

Os memristores podem degradar-se rapidamente, ou seja, possuem ciclos de treinamento limitados.
Os memristores apresentam muito ruído, o que aparentemente não ajuda na causa da regularização, como um engenheiro de ML pode pensar.
$TiO_2$ $HfO_2$ ) os usuários dos Memristors nos círculos acadêmicos são muito limitados. Mas alguns laboratórios que trabalham nessa área são:

Laboratório de Pesquisa em Nanoeletrônica, Universidade de Purdue

Materiais Eletroquímicos, ETH Zurich

Projeto Cérebro Humano

O Instituto MARCS para Cérebro, Comportamento e Desenvolvimento

Fotônica neuromórfica:

Recentemente, tem havido interesse no campo da fotônica neuromórfica. Aqui está um pequeno artigo sobre o mesmo. Eu não estou familiarizado com o funcionamento interno do mesmo, mas o AFAIK envolve a transmissão de informações em forma óptica dentro do próprio chip de processamento. Isso leva a algumas vantagens sobre os circuitos analógicos ou digitais normais:

Processamento de informações mais rápido.
Maior densidade de informações.
Melhor fidelidade de dados devido a muito menos perdas.

DuttaA
fonte

Nota lateral: algumas das minhas observações são baseadas em fatos, enquanto outras são puramente da memória, por isso posso estar errado (já que sou iniciante neste campo). Sinta-se livre para apontar erros.

precisa saber é o seguinte

2

Acredito que a maioria das pessoas tenha respondido à pergunta diligentemente de uma maneira realmente informativa. Gostaria apenas de dizer que usamos circuitos digitais comumente porque essa é a tecnologia existente e que definitivamente os circuitos analógicos parecem realmente promissores.

No entanto, neste momento, essa idéia não está muito bem desenvolvida, apesar da quantidade de pesquisas realizadas nos últimos anos. Até o momento, nenhuma empresa tentou implementar a idéia em nível comercial, onde eles estão fazendo esses chips para uso fora de seus laboratórios.

Além disso, essa ideia parece uma nova abordagem e tem um grande potencial.

Mas, com nossa falta de entendimento sobre como alguns modelos funcionam, outros simplesmente não funcionam por um problema; como as redes neurais realmente resolvem problemas tão complexos e muitas outras coisas. Portanto, ainda é uma tecnologia distante para alcançar todo o seu potencial.

PS: Ainda sou iniciante neste campo e acho que minha opinião não conta, se eu era redundante em algum lugar ou falhava em fornecer a resposta esperada, lamento sinceramente.

user79161
fonte

Esta resposta mostra o pensamento. Também é verdade que a tecnologia existente não mostra tanto progresso com o VLSI analógico programável quanto o digital. ... O que é desconhecido é o resultado do P&D da Marinha dos EUA e do controle analógico da DARPA, que foi amplamente financiado por décadas. Apenas documentos iniciais foram desclassificados. O ICBM e a tecnologia de contramedida podem ser circuitos de inteligência analógica na faixa de 100 GHz. Ou não. ... Sua escrita não era redundante nem ingênua. Certamente, no código aberto, essas tecnologias estão apenas começando a ser vistas. Boa resposta. Sinta-se livre para deixá-lo como está ou desenvolvê-lo ainda mais.

FauChristian

2

Pode-se também abordar a questão a partir do aspecto da teoria da informação:

Existem dois trade-offs para escolher:

Informações analógicas que podem representar informações de maneira mais precisa / específica, mas limitada em quantidade.

Informações digitais que não representam totalmente o mundo real, mas podem conter quantidade ilimitada de informações em alguns bits. Um bom exemplo pode ser algo como um loop for de incremento:

i = 0
while True:
   print(i)
   i += 1

Qual deles é mais poderoso, então?

Aleksei Maide
fonte

Isso geralmente é verdade. Pense no que isso significa para aprender no contexto da IA. Simulamos vários tipos de aprendizado em máquinas por meio de sistemas de regras com meta regras, redes artificiais, extensões à cadeia de Markov, lógica difusa e uma grande variedade de outras técnicas e arquiteturas. Quando o aprendizado ocorre, existe algum tipo de comportamento ideal que o aprendizado tenta adquirir. Como os sistemas analógicos ou digitais podem convergir ou acompanhar (em tempo real) esse comportamento ideal e com uma vantagem a longo prazo?

FauChristian

1

Hava Siegelmann

À primeira vista, a computação analógica é superior à digital. Os computadores quânticos são mais rápidos que os computadores Von-Neumann e os chips neuromórficos precisam de menos energia que os processadores Intel. Também do ponto de vista teórico, muitos falam por computadores analógicos. Hava Siegelmann pesquisou a capacidade de super-turing da rede neural, o que significa que um computador analógico pode emular um digital, mas não o contrário. Então, por que não devemos usar computação analógica?

Stephen Wolfram

A razão tem a ver com o sistema educacional. A matemática clássica que é ensinada nas escolas é a matemática analógica. É baseado em regras de slides, tabela de logaritmos e no pensamento em circuitos. Por outro lado, pensar em valores discretos de um algoritmo e descrever o mundo em zero e uns é fundamentalmente diferente e nos leva a um novo tipo de matemática. Stephen Wolfram explicou que a compreensão dos autômatos celulares é um passo importante para descrever o universo e ele está certo. Ignorar a matemática analógica e preferir aprender linguagens de computador com capacidade é um método poderoso na educação. Isso ajuda não apenas a se familiarizar com os computadores, mas também com todas as outras coisas, como medicina, literatura e economia. Mesmo que as máquinas analógicas sejam superiores em termos técnicos, devemos preferir máquinas de Turing lentas, porém discretas,

Ensino de matemática

Para entender a diferença entre computação digital e analógica, devemos nos concentrar na própria matemática que é utilizada nas escolas. Se a idéia é avançar a computação analógica, o tipo apropriado de matemática é agrupado em torno de campos elétricos, integração e diferenciação. Nas escolas, isso é ensinado sob o termo geral "Análise matemática". Este tópico foi muito importante no passado, porque a análise ajuda a construir pontes, máquinas e carros. Em todos esses domínios, é usada álgebra vetorial para descrever o espaço geométrico.

Se a computação analógica é tão poderosa, por que alguém precisa de matemática digital? Tem a ver com algoritmo. O que o planímetro e o analisador diferencial não têm para oferecer são os recursos de programação. Não é possível definir algoritmos e linguagens artificiais. Uma análise da história da matemática mostra que a teoria dos algoritmos não era muito comum no passado. Na matemática moderna, é discutido sob o termo cálculo Lambda e problema de Halting .

O engraçado é que, à primeira vista, o cálculo Lamda não tem aplicações práticas. Não é necessário se alguém quiser calcular a área de uma ponte. A teoria do algoritmo é uma escola de pensamento para melhorar o pensamento crítico. É uma filosofia necessária para os seres humanos, não para máquinas.

Manuel Rodriguez
fonte

Que bom que você mencionou Seigelmann. O segundo parágrafo é difícil de seguir logicamente. Certamente a educação é fundamental para essa questão, e o seqüenciamento de DNA e a imagem digital melhoraram definitivamente a medicina. Você pode elaborar como a literatura melhorou? Alguns argumentam que a computação digital piorou a volatilidade da economia, mas mais central aos requisitos de recompensa, por que alguém preferiria discretamente lento em vez de contínuo rápido não segue a declaração de Wolfram. Também não há referência à declaração. Você pode fornecer uma referência e fornecer a lógica ausente?

FauChristian

Se os valores digitais são meras estimativas, por que não retornar ao analógico para IA?

Respostas: