Não encontrei uma resposta satisfatória para isso no google .
Obviamente, se os dados que tenho são da ordem de milhões, então o aprendizado profundo é o caminho.
E li que, quando não tenho big data, talvez seja melhor usar outros métodos no aprendizado de máquina. A razão apresentada é excessiva. Aprendizado de máquina: ou seja, observar dados, extrações de recursos, criar novos recursos a partir do que é coletado, etc., como remover variáveis fortemente correlacionadas, etc.
E me pergunto: por que as redes neurais com uma camada oculta não são panacéia para problemas de aprendizado de máquina? Eles são estimadores universais, o ajuste excessivo pode ser gerenciado com abandono, regularização de l2, regularização de l1, normalização de lotes. A velocidade do treinamento geralmente não é um problema se tivermos apenas 50.000 exemplos de treinamento. Eles são melhores no momento do teste do que, digamos, florestas aleatórias.
Então, por que não - limpe os dados, imputa os valores ausentes, como você faria normalmente, centralize os dados, padronize os dados, jogue-os em um conjunto de redes neurais com uma camada oculta e aplique a regularização até que você não veja ajustes excessivos e depois treine eles até o fim. Não há problemas com explosão de gradiente ou desaparecimento de gradiente, pois é apenas uma rede de duas camadas. Se camadas profundas forem necessárias, isso significa que os recursos hierárquicos devem ser aprendidos e outros algoritmos de aprendizado de máquina também não são bons. Por exemplo, o SVM é uma rede neural apenas com perda de dobradiça.
Um exemplo em que algum outro algoritmo de aprendizado de máquina superaria uma rede neural cuidadosamente dividida em duas camadas (talvez 3?) Seria apreciada. Você pode me dar o link para o problema e eu treinaria a melhor rede neural possível e podemos ver se as redes neurais de 2 ou 3 camadas ficam aquém de qualquer outro algoritmo de aprendizado de máquina de referência.
fonte
Respostas:
Cada algoritmo de aprendizado de máquina tem um viés indutivo diferente, portanto nem sempre é apropriado usar redes neurais. Uma tendência linear sempre será aprendida melhor por regressão linear simples, em vez de um conjunto de redes não lineares.
Se você der uma olhada nos vencedores das competições anteriores do Kaggle , com exceção de quaisquer desafios com dados de imagem / vídeo, você descobrirá rapidamente que as redes neurais não são a solução para tudo. Algumas soluções anteriores aqui.
Não há garantia de que você possa aplicar regularização suficiente para evitar o excesso de ajustes sem destruir completamente a capacidade da rede de aprender qualquer coisa. Na vida real, raramente é viável eliminar a diferença de teste de trem, e é por isso que os documentos ainda relatam o desempenho do trem e do teste.
Isso só é verdade no limite de ter um número ilimitado de unidades, o que não é realista.
Um exemplo de problema que eu espero que uma rede neural nunca seja capaz de resolver: dado um número inteiro, classifique como primo ou não-primo.
Acredito que isso possa ser resolvido perfeitamente com um algoritmo simples que repete todos os programas válidos em tamanho crescente e encontra o programa mais curto que identifica corretamente os números primos. De fato, essa sequência regex de 13 caracteres pode corresponder a números primos, o que não seria computacionalmente intratável para pesquisar.
Sim, há um ponto ideal, mas geralmente é muito antes de você parar de se ajustar demais. Veja esta figura:
Se você girar o eixo horizontal e o rotular novamente como "quantidade de regularização", é bastante preciso - se você regularizar até que não haja ajuste excessivo, seu erro será enorme. O "ponto ideal" ocorre quando há um excesso de ajuste, mas não muito.
Sim. Aqui está uma figura feia, mas esperançosamente eficaz, para ilustrar meu argumento.
A questão não é "pode", mas "será" e, se você estiver treinando contrapropagação, a resposta provavelmente não será.
Sem qualificação adicional, essa alegação está errada.
fonte
Eu acrescentaria que não existe uma panacéia de aprendizado de máquina:
Pelo teorema do almoço grátis :
fonte