Nos últimos 50 anos, o aumento / queda / aumento da popularidade das redes neurais tem agido como um 'barômetro' para a pesquisa em IA.
Está claro nas perguntas deste site que as pessoas estão interessadas em aplicar o Deep Learning (DL) a uma ampla variedade de problemas difíceis.
Portanto, tenho duas perguntas:
- Profissionais - Quais são os principais obstáculos para aplicar o DL 'pronto para uso' ao seu problema?
- Pesquisadores - Quais técnicas você usa (ou desenvolveu) que podem ajudar a resolver questões práticas? Eles estão dentro da DL ou oferecem uma abordagem alternativa?
deep-learning
NietzscheanAI
fonte
fonte
Respostas:
Para resumir, existem dois problemas principais no Deep Learning aplicado.
O primeiro é que, computacionalmente, é exaustivo. As CPUs normais exigem muito tempo para executar até o cálculo / treinamento básico com o Deep Learning. As GPUs são, portanto, recomendadas, no entanto, mesmo que não sejam suficientes em muitas situações. Modelos típicos de aprendizado profundo não suportam o tempo teórico de estar em polinômios. No entanto, se observarmos os modelos relativamente mais simples no ML para as mesmas tarefas, muitas vezes temos garantias matemáticas de que o tempo de treinamento necessário para esses algoritmos mais simples está em polinômios. Isso, para mim, pelo menos é provavelmente a maior diferença.
Existem soluções para combater esse problema, no entanto. Uma abordagem principal é otimizar os algoritmos de DL para várias iterações (em vez de observar as soluções globais na prática, basta otimizar o algoritmo para uma boa solução local, enquanto o critério para "Bom" é definido pelo usuário).
Outra questão que pode ser um pouco controversa para os jovens entusiastas do aprendizado profundo é que os algoritmos de aprendizado profundo não têm entendimento e raciocínio teóricos. As redes neurais profundas foram usadas com sucesso em muitas situações, incluindo reconhecimento de escrita manual, processamento de imagens, carros autônomos, processamento de sinais, PNL e análise biomédica. Em alguns desses casos, eles até superaram os humanos. No entanto, dito isso, eles não estão sob nenhuma circunstância, teoricamente tão sólidos quanto a maioria dos Métodos Estatísticos.
Não vou entrar em detalhes, mas deixo isso para você. Existem prós e contras para cada algoritmo / metodologia e o DL não é uma exceção. É muito útil, como já foi comprovado em várias situações, e todo jovem cientista de dados precisa aprender pelo menos o básico da DL. No entanto, no caso de problemas relativamente simples, é melhor usar métodos estatísticos famosos, pois eles têm muitos resultados / garantias teóricas para apoiá-los. Além disso, do ponto de vista da aprendizagem, é sempre melhor começar com abordagens simples e dominá-las primeiro.
fonte
Tenho muito pouca experiência com ML / DL para me chamar de praticante, mas aqui está a minha resposta na 1ª pergunta:
No seu núcleo, o DL resolve bem a tarefa de classificação. Nem todo problema prático pode ser reformulado em termos de classificação. O domínio de classificação precisa ser conhecido antecipadamente. Embora a classificação possa ser aplicada a qualquer tipo de dado, é necessário treinar o NN com amostras do domínio específico onde será aplicado. Se o domínio for alternado em algum momento, mantendo o mesmo modelo (estrutura NN), ele precisará ser treinado novamente com novas amostras. Além disso, até os melhores classificadores têm "lacunas" - exemplos adversos podem ser facilmente construídos a partir de uma amostra de treinamento, de modo que as mudanças sejam imperceptíveis ao ser humano, mas sejam classificadas incorretamente pelo modelo treinado.
fonte
Pergunta 2. Estou pesquisando se a computação hiperdimensional é uma alternativa ao Deep Learning. O Hyper-D usa vetores de bits muito longos (10.000 bits) para codificar informações. Os vetores são aleatórios e, como tal, são aproximadamente ortogonais. Ao agrupar e calcular a média de uma coleção desses vetores, um "conjunto" pode ser formado e posteriormente consultado para verificar se um vetor desconhecido pertence ao conjunto. O conjunto pode ser considerado um conceito ou uma imagem generalizada etc. O treinamento é muito rápido e o reconhecimento. O que precisa ser feito é simular os domínios nos quais o Deep Learning teve sucesso e comparar o Hyper-D com ele.
fonte
Do ponto de vista matemático, um dos principais problemas em redes profundas com várias camadas é o gradiente que desaparece ou é instável . Cada camada oculta adicional aprende significativamente mais devagar, quase anulando os benefícios da camada adicional.
As abordagens modernas de aprendizagem profunda podem melhorar esse comportamento, mas em redes neurais simples e antiquadas, esse é um problema bem conhecido. Você pode encontrar uma análise bem escrita aqui para um estudo mais aprofundado.
fonte