Por que o ML só se tornou viável depois que os chips da Nvidia estavam disponíveis?

11

Ouvi uma palestra do painel composta por dois cientistas chineses influentes: Wang Gang e Yu Kai e outros.

Ao ser questionado sobre o maior gargalo do desenvolvimento da inteligência artificial em um futuro próximo (3 a 5 anos), Yu Kai, que tem experiência na indústria de hardware, disse que o hardware seria o problema essencial e que devemos pagar a maior parte do tempo. nossa atenção a isso. Ele nos deu dois exemplos:

  1. No desenvolvimento inicial do computador, comparamos nossas máquinas por seus chips;
  2. A inteligência artificial que é muito popular nos últimos anos seria quase impossível se não fosse capacitada pela GPU da Nvidia.

Os algoritmos fundamentais já existiam nas décadas de 1980 e 1990, mas a inteligência artificial passou por três invernos de IA e não foi empírica até que possamos treinar modelos com mega servidores com GPU.

O Dr. Wang comentou suas opiniões de que também deveríamos desenvolver sistemas de software porque não podemos construir um carro automático, mesmo que combinemos todas as GPUs e computação do mundo.

Então, como sempre, minha mente se desviou e comecei a pensar que e se aqueles que podem operar supercomputadores nas décadas de 1980 e 1990 utilizassem os algoritmos de rede neural então existentes e os treinassem com toneladas de dados científicos? Algumas pessoas na época podem obviamente tentar criar sistemas de IA que estamos construindo agora. Mas por que a IA se tornou um tópico importante e se tornou empírica até décadas depois? É apenas uma questão de hardware, software e dados?

Lerner Zhang
fonte
3
Essa pergunta pressupõe que a IA é apenas aprendizado de máquina, o que é patentemente errado. Ele existe há mais de 60 anos e apenas o campo muito estreito de redes neurais / de aprendizado profundo foi acelerado pelo hardware atualmente disponível. A IA tem sido um tópico quente várias vezes, empurrado para trás por ter sido exagerado a cada vez.
Oliver Mason
@OliverMason Sim. Nesse contexto, reduzimos a IA apenas para aprendizado de máquina e aprendizado profundo.
Lerner Zhang
OK, eu alterei o título de acordo.
Oliver Mason

Respostas:

14

Existem muitos fatores para o boom da indústria de IA. O que muitas pessoas sentem falta, no entanto, é que o boom ocorreu principalmente na parte Machine Learning da IA. Isso pode ser atribuído a vários motivos simples, juntamente com suas comparações em épocas anteriores:

  • Matemática : a matemática por trás dos algoritmos de ML é bastante simples e conhecida há muito tempo (se funcionaria ou não, ainda não era conhecido). Nos tempos anteriores, não era possível implementar algoritmos que exigem alta precisão de números, a serem calculados em um chip, em um período de tempo aceitável. Uma das principais operações aritméticas da divisão de números ainda leva muitos ciclos nos processadores modernos. Os processadores mais antigos eram magnitude vezes mais lento que os modernos (mais de 100x), esse gargalo tornou impossível o treinamento de modelos sofisticados em processadores contemporâneos.
  • 10 0
  • Paralelização : O conceito de paralelização de operações de matriz não é novidade. Somente quando começamos a ver o Deep Learning como apenas um conjunto de operações de matriz, percebemos que ele pode ser facilmente paralelizado em GPUs massivamente paralelas, ainda que seu algoritmo de ML não seja inerentemente paralelo, isso dificilmente importa se você usa CPU ou GPU ( por exemplo, RNN).
  • Dados : Provavelmente a maior causa do boom da ML. A Internet ofereceu oportunidades para coletar grandes quantidades de dados dos usuários e também disponibilizá-los para as partes interessadas. Como um algoritmo ML é apenas um aproximador de função baseado em dados, portanto, os dados são a coisa mais importante em um algoritmo ML. Quanto mais dados, melhor o desempenho do seu modelo.
  • Custo : o custo do treinamento de um modelo ML diminuiu significativamente. Então, usar um supercomputador para treinar um modelo pode ser bom, mas valeu a pena? Os supercomputadores, diferentemente dos PCs normais, têm muita fome de recursos em termos de refrigeração, espaço etc. Um artigo recenteno MIT Technology Review aponta a pegada de carbono do treinamento de um modelo de Deep Learning (sub-ramo do ML). É um bom indicador de por que seria inviável treinar em supercomputadores em tempos anteriores (considerando que os processadores modernos consomem muito menos energia e proporcionam velocidades mais altas). Embora eu não tenha certeza, acho que os supercomputadores anteriores eram especializados em "computação paralela + de precisão muito alta" (necessária para clima, astronomia, aplicações militares, etc.) e a "parte de precisão muito alta" é um exagero no cenário de aprendizado de máquina.

Outro aspecto importante é que hoje em dia todo mundo tem acesso a computadores poderosos. Assim, qualquer pessoa pode criar novos modelos de ML, re-treinar modelos pré-existentes, modificar modelos etc. Isso não era possível em épocas anteriores,

Todos esses fatores levaram a um grande aumento no interesse no ML e causaram o boom que estamos vendo hoje. Verifique também esta questão sobre como estamos indo além dos processadores digitais.

DuttaA
fonte
2

As GPUs eram ideais para o boom da IA

  • Eles atingiram a hora certa

A IA é pesquisada há muito tempo. Quase meio século. No entanto, isso foi tudo exploração de como os algoritmos funcionariam e pareceriam. Quando a NV viu que a IA estava prestes a se tornar popular, eles examinaram suas GPUs e perceberam que o enorme poder de processamento de paralelos, com relativa facilidade de programação, é ideal para a era que está por vir. Muitas outras pessoas também perceberam isso.

  • GPUs são uma espécie de aceleradores de uso geral

GPGPU é um conceito de uso do processamento paralelo da GPU para tarefas gerais. Você pode acelerar os gráficos ou fazer com que seu algoritmo use milhares de núcleos disponíveis na GPU. Isso torna a GPU um alvo incrível para todos os tipos de casos de uso, incluindo IA. Dado que eles já estão disponíveis e não são muito difíceis de programar, sua escolha ideal para acelerar os algoritmos de IA.

Aleksandar Kostovic
fonte