Existe algum problema de aprendizado supervisionado que as redes neurais (profundas) obviamente não poderiam superar outros métodos?

33

Vi pessoas envidando muitos esforços no SVM e no Kernels, e elas parecem bem interessantes como iniciantes no Machine Learning. Mas se esperamos que quase sempre possamos encontrar uma solução com desempenho superior em termos de rede neural (profunda), qual é o significado de tentar outros métodos nesta era?

Aqui está a minha restrição sobre este tópico.

  1. Pensamos apenas em aprendizados supervisionados; Regressão e Classificação.
  2. A legibilidade do resultado não é contada; somente a precisão no problema de aprendizado supervisionado conta.
  3. O custo computacional não está em consideração.
  4. Não estou dizendo que outros métodos sejam inúteis.
Robin
fonte
3
Alguma restrição à quantidade de dados de treinamento disponíveis?
Jake Westfall
1
Eu não fiz isso, mas espero que você tenha muita dificuldade em treinar uma rede neural para fazer, por exemplo, uma decomposição de valor singular em uma matriz de tamanho não trivial (por exemplo, classificação> 10).
Mehrdad
1
O Google Tradutor agora usa redes neurais e agora produz falhas mais curiosas para um nome de cidade brasileiro, onde o uso de um dicionário palavra por palavra teria sido muito melhor #
Henry
Eu nunca ouvi falar de aprendizado profundo para o uso da conclusão da matriz (embora o uso da conclusão da matriz antes do aprendizado profundo seja uma prática comum). Você pode argumentar que isso pode ser um problema de custo computacional, mas também vale a pena notar que não sei se todos os computadores do mundo poderiam concluir a matriz de aprendizado profundo com, digamos, o problema da netflix.
Cliff AB
@CliffAB: (língua na metade da bochecha ...) provavelmente vale a pena notar que eles podem não ser capazes, mas não sei se vale a pena notar que você não sabe se eles são capazes;)
Mehrdad

Respostas:

31

Aqui está uma razão teórica e duas razões práticas pelas quais alguém pode preferir racionalmente uma abordagem não-DNN.

  1. O Teorema Sem Almoço Gratuito de Wolpert e Macready diz

    Nós dublamos os teoremas da NFL dos resultados associados porque eles demonstram que, se um algoritmo apresenta bom desempenho em uma determinada classe de problemas, ele necessariamente paga por isso, com desempenho degradado no conjunto de todos os problemas restantes.

    Em outras palavras, nenhum algoritmo isolado rege todos eles; você tem que comparar.

    A refutação óbvia aqui é que você normalmente não se preocupam com todos os problemas possíveis e aprendizagem profunda parece funcionar bem em várias classes de problemas que as pessoas fazem o cuidado sobre (por exemplo, o reconhecimento de objetos), e por isso é um primeiro única opção razoável / para outros aplicativos nesses domínios.

  2. Muitas dessas redes muito profundas exigem toneladas de dados, além de toneladas de computação, para se ajustarem. Se você tem (digamos) 500 exemplos, uma rede de vinte camadas nunca vai aprender bem, embora possa ser possível ajustar um modelo muito mais simples. Há um número surpreendente de problemas em que não é possível coletar uma tonelada de dados. Por outro lado, pode-se tentar aprender a resolver um problema relacionado (onde há mais dados disponíveis), usar algo como o aprendizado de transferência para adaptá-lo à tarefa específica de baixa disponibilidade de dados.

  3. Redes neurais profundas também podem ter modos de falha incomuns. Existem alguns documentos que mostram que as mudanças-mal-humanos perceptível pode causar uma rede para virar de classificar corretamente uma imagem para confiantemente mis classificando-lo. (Veja aqui e o documento que acompanha Szegedy et al.) Outras abordagens podem ser mais robustas contra isso: existem ataques de envenenamento contra SVMs (por exemplo, este de Biggio, Nelson e Laskov), mas esses acontecem no trem, em vez de testar Tempo. No extremo oposto, existem limites de desempenho conhecidos (mas não ótimos) para o algoritmo do vizinho mais próximo. Em algumas situações, você pode ficar mais feliz com um desempenho geral mais baixo e com menos chance de catástrofe.

Matt Krause
fonte
Eu concordei com tudo o que você diz. Mas o problema é sobre "questões computacionais ignoradas". Isso significa que o OP assume que você terá amostras infinitas e recursos computacionais infinitos.
SmallChess
17
Computação infinita! = Amostras infinitas. Por exemplo, eu tenho acesso a um cluster surpreendentemente grande para processar dados. No entanto, os experimentos de laboratório que realizamos para adquirir alguns desses dados são difíceis, lentos e demorados (da ordem de horas a dias para um único ponto de dados) e todo o cálculo no mundo não ajudará nisso. .
Matt Krause
2
Os SVMs com qualquer extrator de recurso são provavelmente tão vulneráveis ​​a entradas adversas quanto as CNNs - é apenas mais difícil encontrá-los, porque não temos gradientes disponíveis com facilidade nas camadas de extração de recursos.
Dougal
1
Um exemplo da vida real recente e interessante do problema @MattKrause dá e uma tentativa de circum-lo usando aprendizado de transferência é apresentada em Sim-a-Real Robot Aprendendo com Pixels com Progressive Nets
HBeel
@Dougal, eu também me pergunto se é importante que os extratores de recursos DNN sejam aprendidos, enquanto os SVM são (geralmente) feitos à mão e correspondem aos recursos que os humanos percebem. Parte do que torna o exemplo do panda tão insidioso é a diferença imperceptível entre o exemplo do contraditório e o exemplo regular.
Matt Krause
24

Em algum lugar dessa lista de reprodução de palestras de Geoff Hinton (de seu curso Coursera sobre redes neurais), há um segmento em que ele fala sobre duas classes de problemas:

  1. Problemas em que o ruído é a principal característica,
  2. Problemas em que o sinal é o principal recurso.

Lembro-me da explicação de que, enquanto as redes neurais prosperam neste último espaço, os métodos estatísticos tradicionais são frequentemente mais adequados ao primeiro. A análise de fotografias digitais de alta resolução de coisas reais no mundo, um local onde as redes convolucionais profundas se destacam, constitui claramente a última.

Por outro lado, quando o ruído é a característica dominante, por exemplo, em um estudo de caso-controle médico com 50 casos e 50 controles, os métodos estatísticos tradicionais podem ser mais adequados ao problema.

Se alguém encontrar esse vídeo, comente e eu atualizarei.

Ben Ogorek
fonte
Excelente resposta. Exatamente por que recorremos ao aprendizado profundo para coisas que já podemos fazer (como reconhecer imagens e escrever texto), mas podemos recorrer a outros modelos para coisas que podem ser intuitivamente difíceis.
Mustafa S Eisa
Pessoalmente, tomo esta resposta no meu maior interesse. Muito obrigado pela resposta.
22617 Robin
13

Duas variáveis ​​correlacionadas linearmente aperfeiçoadas. Uma rede profunda com 1 milhão de camadas ocultas e 2 trilhões de nêutrons pode vencer uma regressão linear simples?

EDITADO

Na minha experiência, a coleta de amostras é mais cara que a computação. Quero dizer, podemos apenas contratar algumas instâncias da Amazon, executar um treinamento profundo e depois voltar alguns dias depois. O custo no meu campo é de cerca de US $ 200. O custo é mínimo. Meus colegas ganham mais do que isso em um dia.

A coleta de amostras geralmente requer conhecimento de domínio e equipamentos especializados. O aprendizado profundo é adequado apenas para problemas com conjuntos de dados de acesso fácil e barato, como processamento de linguagem natural, processamento de imagens e qualquer coisa que você possa extrair da Internet.

SmallChess
fonte
1
Certamente, qualquer método de MLE superará a aprendizagem profunda, dependendo do modelo de geração que atenda às premissas do MLE . No entanto, isso nunca acontece em dados reais, ou pelo menos para quaisquer problemas interessantes (ou seja, não prever o resultado do coin flip). Então, acho que o OP está pedindo exemplos envolvendo questões reais de interesse com dados reais.
Cliff AB
É uma resposta muito boa. Você ofereceu um ponto de vista muito intuitivo e realista. Muito obrigado.
22617 Robin