Por que as redes neurais precisam de tantos exemplos de treinamento para serem executadas?

64

Uma criança humana com 2 anos de idade precisa de cerca de 5 instâncias de um carro para poder identificá-lo com precisão razoável, independentemente da cor, marca etc. Quando meu filho tinha 2 anos, ele foi capaz de identificar bondes e trens, mesmo tendo visto apenas alguns. Como ele geralmente estava confundindo um com o outro, aparentemente sua rede neural não era treinada o suficiente, mas ainda assim.

O que faltam redes neurais artificiais que os impedem de aprender com mais rapidez? O aprendizado de transferência é uma resposta?

Marcin
fonte
23
Os elefantes podem ser um exemplo melhor do que carros. Como outros observaram, uma criança pode ter visto muitos carros antes de ouvir o rótulo; portanto, se sua mente já define "tipos naturais", agora ela tem um rótulo para ele. No entanto, uma criança ocidental desenvolve indiscutivelmente um bom sistema de classificação de elefantes com base em apenas alguns dados.
JG
70
O que faz você pensar que o cérebro de uma criança humana funciona como uma rede neural?
Paul Wasilewski
16
Um NN pode ser mostrado a imagem de um carro. Seu filho recebe um filme em 3D completo de diferentes perspectivas, para vários tipos diferentes de carro. Seu filho provavelmente também tem exemplos semelhantes para distinguir um carro. Por exemplo, o carrinho de bebê, brinquedos, etc. Sem esses, acho que seu filho precisaria de mais exemplos.
Stian Yttervik 25/02
20
@MSalters No sentido de uma rede neural artificial? Provavelmente não.
Firebug
28
"Uma criança humana com 2 anos de idade precisa de cerca de 5 instâncias de um carro para poder identificá-lo com razoável precisão". Essa criança teve dois anos completos de experiência com coisas que não são carros. Estou certo de que desempenha um papel significativo.
DarthFennec 25/02

Respostas:

101

Eu aviso contra a expectativa de forte semelhança entre redes neurais biológicas e artificiais. Eu acho que o nome "redes neurais" é um pouco perigoso, porque leva as pessoas a esperar que os processos neurológicos e o aprendizado de máquina sejam os mesmos. As diferenças entre redes neurais biológicas e artificiais superam as semelhanças.

Como um exemplo de como isso pode dar errado, você também pode virar o raciocínio na postagem original. Você pode treinar uma rede neural para aprender a reconhecer carros em uma tarde, desde que você tenha um computador razoavelmente rápido e uma certa quantidade de dados de treinamento. Você pode fazer disso uma tarefa binária (carro / não carro) ou uma tarefa multi-classe (carro / bonde / bicicleta / avião / barco) e ainda assim ter confiança em um alto nível de sucesso.

Por outro lado, eu não esperaria que uma criança pudesse escolher um carro no dia - ou até na semana - depois de nascer, mesmo depois de ter visto "tantos exemplos de treinamento". Obviamente, algo é diferente entre uma criança de dois anos e uma criança que explica a diferença na capacidade de aprender, enquanto uma rede neural de classificação de imagem de baunilha é perfeitamente capaz de captar a classificação de objetos imediatamente após o "nascimento". Penso que existem duas diferenças importantes: (1) os volumes relativos de dados de treinamento disponíveis e (2) um mecanismo de auto-ensino que se desenvolve ao longo do tempo por causa de dados de treinamento abundantes.


A postagem original expõe duas perguntas. O título e o corpo da pergunta perguntam por que as redes neurais precisam de "tantos exemplos". Em relação à experiência de uma criança, as redes neurais treinadas usando benchmarks comuns de imagem têm relativamente poucos dados.

Vou reformular a pergunta no título para

"Como o treinamento de uma rede neural para um benchmark de imagem comum se compara e contrasta com a experiência de aprendizagem de uma criança?"

Para fins de comparação, considerarei os dados do CIFAR-10, porque é um benchmark de imagem comum. A parte rotulada é composta por 10 classes de imagens com 6.000 imagens por classe. Cada imagem tem 32 x 32 pixels. Se você de alguma forma empilhou as imagens rotuladas do CIFAR-10 e fez um vídeo padrão de 48 fps, você teria cerca de 20 minutos de filmagem.

Uma criança de 2 anos que observa o mundo por 12 horas diárias tem aproximadamente 263000 minutos (mais de 4000 horas) de observações diretas do mundo, incluindo feedback de adultos (rótulos). (Estes são apenas números aproximados - não sei quantos minutos uma criança comum de dois anos passou observando o mundo.) Além disso, a criança terá exposição a muitos objetos além das 10 classes que compõem o CIFAR- 10)

Portanto, há algumas coisas em jogo. Uma é que a criança tem exposição a mais dados em geral e a uma fonte de dados mais diversificada do que o modelo CIFAR-10. A diversidade de dados e o volume de dados são bem reconhecidos como pré-requisitos para modelos robustos em geral. Sob esse prisma, não parece surpreendente que uma rede neural seja pior nessa tarefa do que a criança, porque uma rede neural treinada no CIFAR-10 sofre de fome positiva por dados de treinamento em comparação com a criança de dois anos. A resolução da imagem disponível para uma criança é melhor que as imagens CIFAR-10 de 32x32, para que a criança possa aprender informações sobre os pequenos detalhes dos objetos.

A comparação do CIFAR-10 a dois anos não é perfeita porque o modelo CIFAR-10 provavelmente será treinado com várias passagens pelas mesmas imagens estáticas, enquanto a criança verá, usando a visão binocular, como os objetos são organizados em três tridimensional enquanto se move e com diferentes condições de iluminação e perspectivas sobre os mesmos objetos.

A anedota sobre o filho de OP implica uma segunda pergunta,

"Como as redes neurais podem se tornar autodidatas?"

Uma criança é dotada de algum talento para o autodidata, para que novas categorias de objetos possam ser adicionadas ao longo do tempo sem ter que começar do zero.

  • A observação do OP sobre nomeia um tipo de adaptação de modelo no contexto de aprendizado de máquina.

  • Nos comentários, outros usuários apontaram que o aprendizado de uma ou poucas tentativas * é outra área de pesquisa de aprendizado de máquina.

  • Além disso, o aborda os modelos de autoaprendizagem de uma perspectiva diferente, permitindo essencialmente que os robôs realizem tentativas de tentativa e erro para encontrar estratégias ideais para resolver problemas específicos (por exemplo, jogar xadrez).

Provavelmente, é verdade que todos esses três paradigmas de aprendizado de máquina são relevantes para melhorar a forma como as máquinas se adaptam às novas tarefas de visão computacional. A rápida adaptação dos modelos de aprendizado de máquina a novas tarefas é uma área ativa de pesquisa. No entanto, como os objetivos práticos desses projetos (identificar novas instâncias de malware, reconhecer impostores nas fotos de passaportes, indexar a Internet) e os critérios de sucesso diferem dos objetivos de uma criança que está aprendendo sobre o mundo e do fato de que isso é feito em Se um computador usando matemática e o outro é feito em material orgânico usando química, as comparações diretas entre os dois permanecerão carregadas.


Como um aparte, seria interessante estudar como mudar o problema do CIFAR-10 e treinar uma rede neural para reconhecer 6000 objetos de 10 exemplos de cada um. Mas mesmo isso não seria uma comparação justa com crianças de dois anos, porque ainda haveria uma grande discrepância no volume total, diversidade e resolução dos dados de treinamento.

* No momento, não temos tags para o aprendizado de uma só tentativa ou a de poucas sessões.

Restabelecer Monica
fonte
34
Para torná-lo um pouco mais específico, uma criança humana já teve anos de treinamento com dezenas de milhares de exemplos, permitindo-lhes determinar como os objetos são vistos quando vistos de diferentes ângulos, como identificar seus limites, a relação entre tamanho aparente e tamanho real , e assim por diante.
David Schwartz
25
O cérebro de uma criança está ativo dentro do útero . O bebê pode identificar seus pais pelo som , depois que o som é filtrado pela água . Um bebê recém-nascido tinha meses de dados para trabalhar antes de nascer, mas ainda precisa de anos a mais para formar uma palavra, mais alguns anos para formar uma frase e mais alguns para uma frase gramaticalmente correta etc ... aprender é muito complicado .
Nelson
5
@EelcoHoogendoorn explica o contraste 'criança' versus 'rede neural' que foi usada na pergunta. A resposta é que este é apenas um contraste aparente . As redes neurais não precisam de muitos exemplos, pois as crianças também recebem muitos exemplos (mas de uma maneira diferente) antes de poderem reconhecer carros.
Sextus Empiricus 26/02
4
@ Nelson, não sei ao certo qual é o motivo do seu comentário, mas você pode alterar 'anos' para 'ano'. Com 1 ano, as crianças falam palavras, com 2 anos as primeiras frases são pronunciadas e com 3 anos a gramática, como tempo passado e pronomes, é usada corretamente.
Sextus Empiricus 26/02
11
@EelcoHoogendoorn Acho que a premissa da pergunta é um caso de raciocínio a partir de uma analogia defeituosa; portanto, abordar diretamente a analogia é responsivo. O contraste entre redes neurais biológicas e artificiais também é responsivo, porque a resposta descreveria como as redes neurais biológicas e artificiais são mais semelhantes em seu nome (ambas contêm a frase "redes neurais"), mas não são semelhantes em suas características essenciais, ou pelo menos nas características assumido pela pergunta.
Restabelecer Monica
49

Antes de mais, aos dois anos de idade, uma criança conhece muito o mundo e aplica ativamente esse conhecimento. Uma criança faz muita "transferência de aprendizado" aplicando esse conhecimento a novos conceitos.

Segundo, antes de ver esses cinco exemplos "rotulados" de carros, uma criança vê muitos carros na rua, na TV, em carros de brinquedo etc., também muito "aprendizado não supervisionado" acontece de antemão.

Finalmente, as redes neurais não têm quase nada em comum com o cérebro humano, então não faz muito sentido compará-las. Observe também que existem algoritmos para o aprendizado de uma só vez, e quase todas as pesquisas sobre isso acontecem atualmente.

Tim
fonte
9
Quarto ponto, uma criança também tem mais de 100 milhões de anos de seleção evolutiva para aprender com eficiência / precisão.
csiz 27/02
39

Um aspecto importante que não vejo nas respostas atuais é a evolução .

O cérebro de uma criança não aprende do zero. É semelhante a perguntar como os bebês de cervos e girafas podem andar alguns minutos após o nascimento. Porque eles nascem com o cérebro já conectado para esta tarefa. É claro que é necessário algum ajuste fino, mas o cervo bebê não aprende a andar com a "inicialização aleatória".

Da mesma forma, o fato de que grandes objetos em movimento existem e são importantes para acompanhar é algo com que nascemos.

Então, acho que o pressuposto dessa pergunta é simplesmente falso. As redes neurais humanas tiveram a oportunidade de ver toneladas de - talvez não carros, mas - objetos 3D em movimento, girando com texturas e formas difíceis, etc., mas isso aconteceu por muitas gerações e o aprendizado ocorreu por algoritmos evolutivos, ou seja, aqueles cujo cérebro Se estivesse mais bem estruturado para essa tarefa, poderia se reproduzir com maior chance, deixando a próxima geração com fiação cerebral cada vez melhor desde o início.

isarandi
fonte
8
Diversão à parte: há evidências de que, quando se trata de discriminar entre diferentes modelos de carros, aproveitamos o centro de reconhecimento facial especializado do cérebro . É plausível que, embora uma criança não possa distinguir entre modelos diferentes, a presença implícita de um 'rosto' em um objeto móvel possa fazer com que os carros sejam categorizados como um tipo de criatura e, portanto, sejam favorecidos para serem identificados pela evolução, uma vez que reconhecem os móveis objetos com rostos são úteis para a sobrevivência.
Dan Bryant
7
Esta resposta aborda exatamente o que eu estava pensando. As crianças não nascem como folhas em branco . Eles vêm com recursos que tornam alguns padrões mais fáceis de reconhecer, algumas coisas mais fáceis de aprender etc.
Eff
11
Embora os animais que saem do útero sejam realmente fascinantes, acredita-se que essa conexão evolutiva esteja no extremo oposto do aprendizado humano, que é considerado o extremo do aprendizado orientado pela experiência no mundo natural. Certamente os carros terão deixado um impacto evolutivo mínimo na evolução de nossos cérebros.
Eelco Hoogendoorn
5
@EelcoHoogendoorn A capacidade de aprender e entender o ambiente foi selecionada de forma evolutiva. O cérebro foi criado pela evolução para ser extremamente eficiente na aprendizagem. A capacidade de conectar os pontos, ver padrões, entender formas e movimentos, fazer inferências etc.
Eff
3
Esse é um bom ponto, mas também é verdade que, à medida que os pesquisadores entendem isso, eles constroem NNs que possuem estruturas codificadas que facilitam certos tipos de aprendizado. Considere que um NN convolucional possui campos receptivos codificados que aceleram bastante o aprendizado / aprimoram o desempenho em tarefas visuais. Esses campos podem ser aprendidos do zero em uma rede totalmente conectada, mas é muito mais difícil. @EelcoHoogendoorn, o cérebro humano está cheio de estrutura que facilita o aprendizado.
gung - Restabelece Monica
21

Não sei muito sobre redes neurais, mas sei um pouco sobre bebês.

Muitas crianças de 2 anos têm muitos problemas com a forma como as palavras devem ser gerais. Por exemplo, nessa idade, é bastante comum as crianças usarem "cachorro" para qualquer animal de quatro patas. Essa é uma distinção mais difícil que "carro" - pense em quão diferente um poodle parece de um grande dinamarquês, por exemplo, e ainda assim eles são "cachorro" enquanto um gato não é.

E uma criança de 2 anos já viu muitos mais de 5 exemplos de "carros". Uma criança vê dezenas ou até centenas de exemplos de carros sempre que a família sai para passear de carro. E muitos pais comentam "olhe para o carro" mais de 5 vezes. Mas as crianças também podem pensar de maneiras sobre as quais não foram informadas. Por exemplo, na rua, o garoto vê muitas coisas alinhadas. Seu pai diz (de um) "olhe para o carro brilhante!" e o garoto pensa "talvez todas as outras coisas alinhadas também sejam carros?"

Peter Flom - Restabelece Monica
fonte
3
Outros exemplos: os táxis, os carros das aulas de direção e os carros da polícia são os mesmos. Sempre que um carro está vermelho, é um caminhão de bombeiros. Os autocaravanas são ambulâncias. Um caminhão com uma grua carregadora é classificado como escavadeira. O ônibus que acabou de passar vai para a estação de trem; portanto, o próximo ônibus, que parece o mesmo, também deve estar indo para a estação de trem. E ver a lua durante o dia é um evento muito especial.
Sextus Empiricus 26/02
10

Essa é uma pergunta fascinante sobre a qual eu também ponderei bastante, e posso apresentar algumas explicações.

  • As redes neurais não funcionam nada como o cérebro. A retropropagação é exclusiva das redes neurais e não acontece no cérebro. Nesse sentido, simplesmente não conhecemos o algoritmo geral de aprendizado em nossos cérebros. Pode ser elétrico, pode ser químico, pode até ser uma combinação dos dois. As redes neurais podem ser consideradas uma forma inferior de aprendizado em comparação com nossos cérebros, devido à simplificação.
  • Se as redes neurais são realmente como o nosso cérebro, os bebês humanos passam por um extenso "treinamento" das camadas iniciais, como a extração de características, nos primeiros dias. Portanto, suas redes neurais não são realmente treinadas do zero, mas a última camada é treinada novamente para adicionar mais e mais classes e rótulos.
sd2017
fonte
9

Uma criança humana com 2 anos de idade precisa de cerca de 5 instâncias de um carro para poder identificá-lo com precisão razoável, independentemente da cor, marca, etc.

O conceito de "instâncias" fica facilmente confuso. Enquanto uma criança pode ter visto 5 instâncias únicas de um carro, na verdade ela viu milhares de milhares de quadros, em muitos ambientes diferentes. Eles provavelmente viram carros em outros contextos. Eles também têm uma intuição para o mundo físico desenvolvido ao longo da vida - algumas transferências de aprendizado provavelmente acontecem aqui. No entanto, agrupamos tudo isso em "5 instâncias".

Enquanto isso, cada quadro / imagem que você passa para uma CNN é considerado um "exemplo". Se você aplicar uma definição consistente, ambos os sistemas estão realmente utilizando uma quantidade muito mais semelhante de dados de treinamento.

Além disso, gostaria de observar que as redes neurais convolucionais - CNNs - são mais úteis em visão computacional do que as RNAs e, de fato, abordam o desempenho humano em tarefas como classificação de imagens. O aprendizado profundo (provavelmente) não é uma panacéia, mas tem um desempenho admirável nesse domínio.

espinodal
fonte
5

Como apontado por outros, a eficiência dos dados das redes neurais artificiais varia bastante, dependendo dos detalhes. De fato, existem muitos métodos de aprendizado de uma só vez, que podem resolver a tarefa de rotular bondes com uma precisão bastante boa, usando apenas uma única amostra rotulada.

Uma maneira de fazer isso é pelo chamado aprendizado de transferência; uma rede treinada em outros rótulos geralmente é muito eficazmente adaptável a novos rótulos, pois o trabalho árduo está quebrando os componentes de baixo nível da imagem de maneira sensata.

Mas não precisamos de dados rotulados para executar essa tarefa; Assim como os bebês, não precisam de tantos dados rotulados como as redes neurais que você pensa em fazer.

Por exemplo, um desses métodos não supervisionados que eu também apliquei com sucesso em outros contextos é pegar um conjunto de imagens não rotuladas, girá-las aleatoriamente e treinar uma rede para prever qual lado da imagem está ativo. Sem saber o que são os objetos visíveis ou como são chamados, isso força a rede a aprender uma quantidade enorme de estrutura sobre as imagens; e isso pode formar uma excelente base para um aprendizado rotulado subsequente com muito mais eficiência em dados.

Embora seja verdade que as redes artificiais são bem diferentes das reais de maneiras provavelmente significativas, como a ausência de um análogo óbvio de retropropagação, é muito provável que as redes neurais reais usem os mesmos truques, tentando aprender o estrutura nos dados implícitos em alguns anteriores simples.

Um outro exemplo que quase certamente desempenha um papel nos animais e também mostrou grande promessa na compreensão do vídeo, é no pressuposto de que o futuro deve ser previsível em relação ao passado. Apenas partindo dessa suposição, você pode ensinar muito uma rede neural. Ou em um nível filosófico, estou inclinado a acreditar que essa suposição está subjacente a quase tudo o que consideramos "conhecimento".

Não estou dizendo nada de novo aqui; mas é relativamente novo no sentido de que essas possibilidades são jovens demais para terem encontrado muitas aplicações ainda, e ainda não chegaram ao entendimento do livro didático de 'o que uma RNA pode fazer'. Então, para responder à pergunta dos OPs; A RNA já fechou grande parte da lacuna que você descreve.

Eelco Hoogendoorn
fonte
4

Uma maneira de treinar uma rede neural profunda é tratá-la como uma pilha de auto-codificadores ( Restricted Boltzmann Machines ).

Em teoria, um codificador automático aprende de maneira não supervisionada: ele pega dados de entrada arbitrários e sem rótulo e os processa para gerar dados de saída. Em seguida, ele pega os dados de saída e tenta regenerar seus dados de entrada. Ele ajusta os parâmetros de seus nós até chegar perto dos dados. Se você pensar bem, o codificador automático está escrevendo seus próprios testes de unidade automatizados. Com efeito, está transformando seus "dados de entrada não rotulados" em dados rotulados : Os dados originais servem como um rótulo para os dados de ida e volta.

Depois que as camadas dos codificadores automáticos são treinadas, a rede neural é ajustada usando dados rotulados para executar a função pretendida. Com efeito, estes são testes funcionais.

O pôster original pergunta por que muitos dados são necessários para treinar uma rede neural artificial e compara isso à quantidade supostamente baixa de dados de treinamento necessários para um ser humano de dois anos de idade. O pôster original está comparando maçãs com laranjas: o processo geral de treinamento para a rede neural artificial, versus o ajuste fino das etiquetas para os dois anos de idade.

Mas, na realidade, a criança de dois anos treina seus codificadores automáticos em dados aleatórios e auto-rotulados há mais de dois anos. Os bebês sonham quando estão no útero . (O mesmo ocorre com os gatinhos.) Os pesquisadores descreveram esses sonhos como envolvendo disparos aleatórios de neurônios nos centros de processamento visual.

Jaspe
fonte
11
Acordado; exceto que os codificadores automáticos, na prática, não são ferramentas muito poderosas para realizar muita aprendizagem não supervisionada; tudo o que sabemos indica que há mais coisas acontecendo; portanto, a frase "a criança de dois anos está treinando seus codificadores automáticos" não deve ser interpretada literalmente, suponho.
Eelco Hoogendoorn
4

Nós não aprendemos a "ver carros" até aprendermos a ver

Leva muito tempo e muitos exemplos para uma criança aprender a ver objetos como tais. Depois disso, uma criança pode aprender a identificar um tipo específico de objeto com apenas alguns exemplos. Se você comparar uma criança de dois anos com um sistema de aprendizado que literalmente começa com uma folha em branco, é uma comparação de maçãs e laranjas; nessa idade, a criança viu milhares de horas de "imagens de vídeo".

De maneira semelhante, são necessárias muitas redes neurais artificiais para aprender "como ver", mas depois disso é possível transferir esse conhecimento para novos exemplos. O aprendizado de transferência é um domínio inteiro do aprendizado de máquina, e coisas como "aprendizado único" são possíveis - você pode criar RNAs que aprenderão a identificar novos tipos de objetos que nunca viram antes em um único exemplo ou a identificar um pessoa em particular a partir de uma única foto de seu rosto. Mas fazer bem essa parte inicial de "aprender a ver" requer bastante dados.

Além disso, existem evidências de que nem todos os dados de treinamento são iguais, ou seja, aqueles dados que você "escolhe" enquanto aprende são mais eficazes do que os dados que são simplesmente fornecidos a você. Por exemplo, experimento de Held & Hein com gatinhos gêmeos. https://www.lri.fr/~mbl/ENS/FONDIHM/2013/papers/about-HeldHein63.pdf

Peter é
fonte
4

Uma coisa que eu não vi nas respostas até agora é o fato de que uma "instância" de um objeto do mundo real que é vista por uma criança humana não corresponde a uma instância no contexto do treinamento de NN.

Suponha que você esteja em um cruzamento ferroviário com uma criança de 5 anos e observe 5 trens passarem em 10 minutos. Agora, você pode dizer "Meu filho viu apenas cinco trens e pode identificar com segurança outros trens enquanto um NN precisa de milhares de imagens!". Embora isso provavelmente seja verdade, você está ignorando completamente o fato de que cada trem que seu filho vê contém MUITO mais informações do que uma única imagem de um trem. De fato, o cérebro do seu filho está processando várias dezenas de imagens do trem por segundo enquanto ele passa, cada um de um ângulo ligeiramente diferente, sombras diferentes etc., enquanto uma única imagem fornece ao NN informações muito limitadas. Nesse contexto, seu filho ainda tem informações que não estão disponíveis para o NN, por exemplo, a velocidade do trem ou o som que o trem faz.

Além disso, seu filho pode conversar e fazer perguntas! "Os trens são muito longos, certo?" "Sim.", "E eles também são muito grandes, certo?" "Sim.". Com duas perguntas simples, seu filho aprende dois recursos muito essenciais em menos de um minuto!

Outro ponto importante é a detecção de objetos. Seu filho é capaz de identificar imediatamente em qual objeto, ou seja, em qual parte da imagem, ele precisa se concentrar, enquanto um NN deve aprender a detectar o objeto relevante antes de tentar classificá-lo.

bi_scholar
fonte
3
Eu acrescentaria também que a criança tem contexto : ela vê um trem nos trilhos, seja em uma estação, passagem de nível, etc. não vai dizer que é um trem. Dirá que parece um trem, mas não anexará o rótulo "trem" a ele. Eu sou cético: um NN retornará um rótulo "balão de aparência de trem" neste caso. Da mesma forma, uma criança não confunde um outdoor com um trem com um trem real. A imagem de uma imagem de um trem é uma imagem de um trem para um NN - ele retornará o rótulo "trem".
corey979 28/02
3

Eu diria que o desempenho não é tão diferente como você poderia esperar, mas você faz uma ótima pergunta (veja o último parágrafo).

Como você menciona a transferência de aprendizado: Para comparar maçãs com maçãs, precisamos observar quantas fotos no total e quantas fotos da classe de interesse uma rede humana / neural "vê".

1. Quantas fotos um ser humano vê?

O movimento dos olhos humanos leva cerca de 200ms, o que pode ser visto como uma espécie de "foto biológica". Veja a palestra do especialista em visão computacional Fei-Fei Li: https://www.ted.com/talks/fei_fei_li_how_we_re_teaching_computers_to_understand_pictures#t-362785 .

Ela adiciona:

Assim, aos 3 anos de idade, uma criança teria visto centenas de milhões de fotos.

No ImageNet, o principal banco de dados para detecção de objetos, existem ~ 14 milhões de imagens rotuladas . Assim, uma rede neural treinada no ImageNet teria visto tantas fotos quanto um bebê de 14000000/5/60/60/24 * 2 ~ 64 dias, com dois meses de idade (supondo que o bebê esteja acordado metade da vida). Para ser justo, é difícil dizer quantas dessas fotos estão etiquetadas. Além disso, as fotos, um bebê vê, não são tão diversas como no ImageNet. (Provavelmente, o bebê vê a mãe ter o tempo, ...;). No entanto, acho justo dizer que seu filho já viu centenas de milhões de fotos (e depois aplica o aprendizado por transferência).

Então, de quantas fotos precisamos aprender uma nova categoria, dada uma base sólida de fotos relacionadas que podem ser transferidas?

A primeira publicação que encontrei foi: https://blog.keras.io/building-powerful-image-classification-models-using-very-little-data.html . Eles usam 1000 exemplos por classe. Eu poderia imaginar 2,5 anos depois ainda menos que seja necessário. No entanto, 1000 imagens podem ser vistas por um ser humano em 1000/5/60 em 3,3 minutos.

Você escreveu:

Uma criança humana com 2 anos de idade precisa de cerca de 5 instâncias de um carro para poder identificá-lo com precisão razoável, independentemente da cor, marca, etc.

Isso seria equivalente a quarenta segundos por exemplo (com vários ângulos desse objeto para torná-lo comparável).

Resumindo: Como mencionei, tive que fazer algumas suposições. Mas acho que podemos ver que o desempenho não é tão diferente quanto se poderia esperar.

No entanto, acredito que você faz uma ótima pergunta e aqui está o porquê:

2. A rede neural teria um desempenho melhor / diferente se funcionasse mais como o cérebro? (Geoffrey Hinton diz que sim).

Em uma entrevista https://www.wired.com/story/googles-ai-guru-computers-think-more-like-brains/ , no final de 2018, ele compara as implementações atuais de redes neurais com o cérebro. Ele menciona, em termos de pesos, as redes neurais artificiais são menores que o cérebro por um fator de 10.000. Portanto, o cérebro precisa de muito menos iterações de treinamentos para aprender. Para permitir que redes neurais artificiais funcionem mais como nossos cérebros, ele segue outra tendência em hardware, uma startup britânica chamada Graphcore. Reduz o tempo de cálculo de uma maneira inteligente de armazenar os pesos de uma rede neural. Portanto, mais pesos podem ser usados ​​e o tempo de treinamento das redes neurais artificiais pode ser reduzido.

BigDataScientist
fonte
2

Eu sou um especialista nisso. Eu sou humano, eu era um bebê, tenho um carro e faço IA.

A razão pela qual os bebês compram carros com exemplos muito mais limitados é a intuição. O cérebro humano já possui estruturas para lidar com rotações em 3D. Além disso, existem dois olhos que fornecem paralaxe para o mapeamento de profundidade, o que realmente ajuda. Você pode intuir entre um carro e uma imagem de um carro, porque não há profundidade real na imagem. Hinton (pesquisador de IA) propôs a idéia da Capsule Networks, que seria capaz de lidar com as coisas de maneira mais intuitiva. Infelizmente para computadores, os dados de treinamento são (geralmente) imagens 2D, matrizes de pixels planos. Para não ajustar demais, são necessários muitos dados, para que a orientação dos carros nas imagens seja generalizada. O cérebro do bebê já pode fazer isso e pode reconhecer um carro em qualquer orientação.

Jason Hihn
fonte