Vi pessoas envidando muitos esforços no SVM e no Kernels, e elas parecem bem interessantes como iniciantes no Machine Learning. Mas se esperamos que quase sempre possamos encontrar uma solução com desempenho superior em termos de rede neural (profunda), qual é o significado de tentar outros métodos nesta era?
Aqui está a minha restrição sobre este tópico.
- Pensamos apenas em aprendizados supervisionados; Regressão e Classificação.
- A legibilidade do resultado não é contada; somente a precisão no problema de aprendizado supervisionado conta.
- O custo computacional não está em consideração.
- Não estou dizendo que outros métodos sejam inúteis.
Respostas:
Aqui está uma razão teórica e duas razões práticas pelas quais alguém pode preferir racionalmente uma abordagem não-DNN.
O Teorema Sem Almoço Gratuito de Wolpert e Macready diz
Em outras palavras, nenhum algoritmo isolado rege todos eles; você tem que comparar.
A refutação óbvia aqui é que você normalmente não se preocupam com todos os problemas possíveis e aprendizagem profunda parece funcionar bem em várias classes de problemas que as pessoas fazem o cuidado sobre (por exemplo, o reconhecimento de objetos), e por isso é um primeiro única opção razoável / para outros aplicativos nesses domínios.
Muitas dessas redes muito profundas exigem toneladas de dados, além de toneladas de computação, para se ajustarem. Se você tem (digamos) 500 exemplos, uma rede de vinte camadas nunca vai aprender bem, embora possa ser possível ajustar um modelo muito mais simples. Há um número surpreendente de problemas em que não é possível coletar uma tonelada de dados. Por outro lado, pode-se tentar aprender a resolver um problema relacionado (onde há mais dados disponíveis), usar algo como o aprendizado de transferência para adaptá-lo à tarefa específica de baixa disponibilidade de dados.
Redes neurais profundas também podem ter modos de falha incomuns. Existem alguns documentos que mostram que as mudanças-mal-humanos perceptível pode causar uma rede para virar de classificar corretamente uma imagem para confiantemente mis classificando-lo. (Veja aqui e o documento que acompanha Szegedy et al.) Outras abordagens podem ser mais robustas contra isso: existem ataques de envenenamento contra SVMs (por exemplo, este de Biggio, Nelson e Laskov), mas esses acontecem no trem, em vez de testar Tempo. No extremo oposto, existem limites de desempenho conhecidos (mas não ótimos) para o algoritmo do vizinho mais próximo. Em algumas situações, você pode ficar mais feliz com um desempenho geral mais baixo e com menos chance de catástrofe.
fonte
Em algum lugar dessa lista de reprodução de palestras de Geoff Hinton (de seu curso Coursera sobre redes neurais), há um segmento em que ele fala sobre duas classes de problemas:
Lembro-me da explicação de que, enquanto as redes neurais prosperam neste último espaço, os métodos estatísticos tradicionais são frequentemente mais adequados ao primeiro. A análise de fotografias digitais de alta resolução de coisas reais no mundo, um local onde as redes convolucionais profundas se destacam, constitui claramente a última.
Por outro lado, quando o ruído é a característica dominante, por exemplo, em um estudo de caso-controle médico com 50 casos e 50 controles, os métodos estatísticos tradicionais podem ser mais adequados ao problema.
Se alguém encontrar esse vídeo, comente e eu atualizarei.
fonte
Duas variáveis correlacionadas linearmente aperfeiçoadas. Uma rede profunda com 1 milhão de camadas ocultas e 2 trilhões de nêutrons pode vencer uma regressão linear simples?
EDITADO
Na minha experiência, a coleta de amostras é mais cara que a computação. Quero dizer, podemos apenas contratar algumas instâncias da Amazon, executar um treinamento profundo e depois voltar alguns dias depois. O custo no meu campo é de cerca de US $ 200. O custo é mínimo. Meus colegas ganham mais do que isso em um dia.
A coleta de amostras geralmente requer conhecimento de domínio e equipamentos especializados. O aprendizado profundo é adequado apenas para problemas com conjuntos de dados de acesso fácil e barato, como processamento de linguagem natural, processamento de imagens e qualquer coisa que você possa extrair da Internet.
fonte