Problemas e alternativas às abordagens de Aprendizado Profundo?

17

Nos últimos 50 anos, o aumento / queda / aumento da popularidade das redes neurais tem agido como um 'barômetro' para a pesquisa em IA.

Está claro nas perguntas deste site que as pessoas estão interessadas em aplicar o Deep Learning (DL) a uma ampla variedade de problemas difíceis.

Portanto, tenho duas perguntas:

  1. Profissionais - Quais são os principais obstáculos para aplicar o DL 'pronto para uso' ao seu problema?
  2. Pesquisadores - Quais técnicas você usa (ou desenvolveu) que podem ajudar a resolver questões práticas? Eles estão dentro da DL ou oferecem uma abordagem alternativa?
NietzscheanAI
fonte
3
Se você tiver duas perguntas, faça duas perguntas.
precisa saber é o seguinte
11
Eles estão claramente inter-relacionados.
NietzscheanAI

Respostas:

5

Para resumir, existem dois problemas principais no Deep Learning aplicado.

  • O primeiro é que, computacionalmente, é exaustivo. As CPUs normais exigem muito tempo para executar até o cálculo / treinamento básico com o Deep Learning. As GPUs são, portanto, recomendadas, no entanto, mesmo que não sejam suficientes em muitas situações. Modelos típicos de aprendizado profundo não suportam o tempo teórico de estar em polinômios. No entanto, se observarmos os modelos relativamente mais simples no ML para as mesmas tarefas, muitas vezes temos garantias matemáticas de que o tempo de treinamento necessário para esses algoritmos mais simples está em polinômios. Isso, para mim, pelo menos é provavelmente a maior diferença.

    Existem soluções para combater esse problema, no entanto. Uma abordagem principal é otimizar os algoritmos de DL para várias iterações (em vez de observar as soluções globais na prática, basta otimizar o algoritmo para uma boa solução local, enquanto o critério para "Bom" é definido pelo usuário).

  • Outra questão que pode ser um pouco controversa para os jovens entusiastas do aprendizado profundo é que os algoritmos de aprendizado profundo não têm entendimento e raciocínio teóricos. As redes neurais profundas foram usadas com sucesso em muitas situações, incluindo reconhecimento de escrita manual, processamento de imagens, carros autônomos, processamento de sinais, PNL e análise biomédica. Em alguns desses casos, eles até superaram os humanos. No entanto, dito isso, eles não estão sob nenhuma circunstância, teoricamente tão sólidos quanto a maioria dos Métodos Estatísticos.

    Não vou entrar em detalhes, mas deixo isso para você. Existem prós e contras para cada algoritmo / metodologia e o DL não é uma exceção. É muito útil, como já foi comprovado em várias situações, e todo jovem cientista de dados precisa aprender pelo menos o básico da DL. No entanto, no caso de problemas relativamente simples, é melhor usar métodos estatísticos famosos, pois eles têm muitos resultados / garantias teóricas para apoiá-los. Além disso, do ponto de vista da aprendizagem, é sempre melhor começar com abordagens simples e dominá-las primeiro.

Sibghat Ullah
fonte
Por 'em polinômios' você quer dizer 'em tempo polinomial', certo? Você tem uma referência para apoiar isso?
NietzscheanAI
Sim, é exatamente isso que eu quero dizer. Claro, isso pode ser provado em várias situações ... Começarei com o exemplo mais simples possível: apenas treinar uma rede com três nós e duas camadas é o problema NP-Complete, como mostrado aqui. ( Citeseerx.ist.psu. edu / viewdoc /… ). Lembre-se de que este artigo é muito antigo e agora temos mais idéias sobre como melhorar na prática, com algumas heurísticas, mas ainda assim, teoricamente, não há resultados aprimorados.
Sibghat Ullah 27/03/19
Outro bom artigo sobre o mesmo assunto, que também descreve alguns truques para melhorar o tempo de treinamento na prática. ( pdfs.semanticscholar.org/9499/… )
Sibghat Ullah
Digamos, queremos prever o preço de alguma coisa. A regressão linear simples com ajuste mínimo de quadrado terá um tempo polinomial, enquanto resolver o mesmo problema com as redes neurais (mesmo as mais simples) resultará em um problema completo de NP. Esta é uma diferença muito grande. Eventualmente, você deve selecionar cuidadosamente um algoritmo para uma tarefa específica. Por exemplo, o ajuste Menos quadrado possui suposições específicas, que incluem: "A função ideal que o algoritmo está aprendendo, pode ser aprendida como uma combinação linear de recursos". Se essa suposição não for válida, os resultados serão alcançados.
Sibghat Ullah 27/03/19
Claro, simplesmente porque um problema (neste caso, encontrar pesos ótimos) é NP-completos em si não significa que não existam métodos práticos não eficientes para encontrar bons pesos ...
NietzscheanAI
5

Tenho muito pouca experiência com ML / DL para me chamar de praticante, mas aqui está a minha resposta na 1ª pergunta:

No seu núcleo, o DL resolve bem a tarefa de classificação. Nem todo problema prático pode ser reformulado em termos de classificação. O domínio de classificação precisa ser conhecido antecipadamente. Embora a classificação possa ser aplicada a qualquer tipo de dado, é necessário treinar o NN com amostras do domínio específico onde será aplicado. Se o domínio for alternado em algum momento, mantendo o mesmo modelo (estrutura NN), ele precisará ser treinado novamente com novas amostras. Além disso, até os melhores classificadores têm "lacunas" - exemplos adversos podem ser facilmente construídos a partir de uma amostra de treinamento, de modo que as mudanças sejam imperceptíveis ao ser humano, mas sejam classificadas incorretamente pelo modelo treinado.

Iliyan Bobev
fonte
2
A 'classificação' pode ser considerada um caso especial de 'regressão', o que provavelmente é, portanto, uma melhor caracterização da DL.
NietzscheanAI
3

Pergunta 2. Estou pesquisando se a computação hiperdimensional é uma alternativa ao Deep Learning. O Hyper-D usa vetores de bits muito longos (10.000 bits) para codificar informações. Os vetores são aleatórios e, como tal, são aproximadamente ortogonais. Ao agrupar e calcular a média de uma coleção desses vetores, um "conjunto" pode ser formado e posteriormente consultado para verificar se um vetor desconhecido pertence ao conjunto. O conjunto pode ser considerado um conceito ou uma imagem generalizada etc. O treinamento é muito rápido e o reconhecimento. O que precisa ser feito é simular os domínios nos quais o Deep Learning teve sucesso e comparar o Hyper-D com ele.

Douglas G Danforth
fonte
Interessante. Então, como isso difere da 'Sparse Distributed Memory' de Kanerva?
NietzscheanAI
Ambos são desenvolvidos por Pentti Kanerva. Procure a computação hiper-dimensional para ver a diferença. Muito tempo para responder aqui.
Douglas G Danforth
1

Do ponto de vista matemático, um dos principais problemas em redes profundas com várias camadas é o gradiente que desaparece ou é instável . Cada camada oculta adicional aprende significativamente mais devagar, quase anulando os benefícios da camada adicional.

As abordagens modernas de aprendizagem profunda podem melhorar esse comportamento, mas em redes neurais simples e antiquadas, esse é um problema bem conhecido. Você pode encontrar uma análise bem escrita aqui para um estudo mais aprofundado.

Demento
fonte