As deficiências das redes neurais estão diminuindo?

8

Tendo trabalhado com redes neurais por cerca de meio ano, experimentei em primeira mão o que muitas vezes são reivindicadas como suas principais desvantagens, ou seja, superajustar e ficar preso nos mínimos locais. No entanto, através da otimização do hiperparâmetro e de algumas abordagens recém-inventadas, elas foram superadas em meus cenários. De minhas próprias experiências:

  • O abandono parece ser um método de regularização muito bom (também um pseudo-ensembler?),
  • A normalização de lotes facilita o treinamento e mantém a força do sinal consistente em várias camadas.
  • Adadelta alcança consistentemente ótimas ótimas

Eu experimentei a implementação do SVM SciKit-learns juntamente com meus experimentos com redes neurais, mas acho que o desempenho é muito baixo em comparação, mesmo depois de fazer pesquisas na grade por hiperparâmetros. Sei que existem inúmeros outros métodos e que os SVMs podem ser considerados uma subclasse de NNs, mas ainda assim.

Então, para a minha pergunta:

Com todos os métodos mais recentes pesquisados ​​para redes neurais, eles lentamente se tornaram "superiores" a outros métodos? As redes neurais têm suas desvantagens, assim como outras, mas com todos os novos métodos, essas desvantagens foram mitigadas para um estado de insignificância?

Percebo que muitas vezes "menos é mais" em termos de complexidade do modelo, mas isso também pode ser arquitetado para redes neurais. A idéia de "sem almoço grátis" nos proíbe assumir que uma abordagem sempre reinará superior. É só que minhas próprias experiências - junto com inúmeros trabalhos sobre performances impressionantes de várias NN's - indicam que pode haver, pelo menos, um almoço muito barato.

Alexander C. Harrington
fonte
tosse sem teorema do almoço grátis tosse #
1111

Respostas:

5

As redes neurais também têm outras deficiências.

  1. Leva muito mais tempo e muito mais recursos para treinar uma rede neural do que algo como uma floresta aleatória. Portanto, se você precisar de rapidez no treinamento ou tiver recursos limitados de qualquer maneira, provavelmente não deve olhar primeiro para as Redes Neurais. A avaliação de um NN profundo treinado também pode ser muito mais cara do que as técnicas concorrentes.
  2. O esforço envolvido em aprender a arquitetar e treinar um NN ainda é muito maior do que os métodos concorrentes, como um SVM. As pessoas que estão começando no Data Science provavelmente devem usar outras técnicas para aprender sobre as nuances de ajuste de dados antes de se envolverem em redes neurais. E embora NNs simples com apenas um ou dois hiperparâmetros estejam frequentemente disponíveis em muitas bibliotecas de ciência de dados, eles não têm desempenho melhor do que outras técnicas, por isso são apenas outra técnica de caixa preta de ML.
  3. Embora tenhamos feito muitos progressos no entendimento de como as redes neurais fazem sua mágica, elas ainda são menos acessíveis e dissecáveis ​​do que a maioria dos métodos concorrentes. Portanto, embora os NNs possam resolver o problema, eles podem não fornecer tantas informações tão facilmente quanto outras técnicas.

Ansioso para o que as outras pessoas têm a dizer aqui.

Mike Wise
fonte
Bons pontos, embora alguns dos problemas de desempenho possam ser mitigados pelas GPUs, eu acho. Além disso, posso recomendar calorosamente o Keras, pois permite uma composição muito fácil dos MLPs básicos. Embora, como você diz, ao usar uma biblioteca de nível muito alto como o SciKit Learn, seja um pouco difícil obter um bom desempenho, pois os hiperparâmetros são um pouco superficiais demais e não fornecem algumas das metodologias mais recentes.
Alexander C. Harrington
Sim, mas mesmo com um grande número de GPUs, elas ainda são muito mais lentas que as técnicas concorrentes. O treinamento em DNN é realmente pesado, estou trabalhando em projetos em uma grande empresa de tecnologia, onde eles costumam falar sobre dias de treinamento de DNNs em clusters de GPU muito grandes dedicados apenas a esse tipo de tarefa. Você não vê esse tipo de computação dedicada aos algoritmos aleatórios baseados em florestas AFAIK.
Mike Wise
Eu vejo. Mas acho que isso está em troca de um desempenho muito superior dos DNNs? Ou talvez a margem que faz a diferença?
Alexander C. Harrington
Bem, sabemos que os DNNs são potencialmente capazes de inteligência no nível humano :) - embora ainda não saibamos exatamente ainda. Hoje, concretamente, sabemos que eles nos fornecem os melhores resultados para tarefas como reconhecimento de imagem complexo, decodificação de som, inferência de intenção em uma conversa e algumas outras.
Mike Wise
3

Apenas para acrescentar ao que foi dito na brilhante resposta de @ MikeWise,

  • Todos os modelos iguais de aprendizagem profunda geralmente são supremas quando comparados a outros algoritmos à medida que o tamanho do conjunto de dados aumenta:

    por que aprendizado profundo

  • Como tudo, tudo se resume ao conjunto de dados em questão, as redes neurais são boas em outros conjuntos de dados, mas, ao mesmo tempo, serão ruins em outros conjuntos de dados. Quando se trata de problemas não estruturados (por exemplo , visuais, texto, som ), neste momento as redes neurais parecem ser o melhor algoritmo. Dito isto, quando se trata de dados estruturados, uma rápida verificação do tipo de algoritmo usado para vencer competições online de ciência de dados revela que, os chamados algoritmos de aprendizado de máquina, como o XGboost, são supremas.

  • Quando se trata de outros modelos, a engenharia de recursos desempenha um papel importante na eficiência do algoritmo. A engenharia de recursos geralmente é uma coisa complicada de se fazer e fazer o que é certo. Os algoritmos de aprendizado profundo não exigem tanta engenharia de recursos (se houver) em comparação com outros algoritmos, na verdade eles aprendem os recursos por conta própria .

  • Se o pessoal do Google disser que não viu o aprendizado profundo chegando, quem deve descartar a possibilidade de algum algoritmo de aprendizado de máquina surgir e dominar o mundo pela tempestade?

  • Aqui está uma pesquisa sobre o que o cientista de dados disse quando perguntado: se o aprendizado profundo corresponde ao hype na aplicação no mundo real? .

  • Até mesmo alguns dos aplicativos populares de aprendizado profundo, como o AlphaGo, do Google, não são 100% de aprendizado profundo , mas fazem parte do aprendizado profundo, do bom e velho "aprendizado de máquina". Meu 2 centavo é, talvez ainda não devamos descartar outros algoritmos de aprendizado de máquina.

Tshilidzi Mudau
fonte