Quão poucos exemplos de treinamento são poucos ao treinar uma rede neural?

Sou iniciante tentando montar meu primeiro projeto. Eu tinha um projeto de classificação de músicas em mente, mas como eu seria rotulado manualmente, eu só conseguia reunir razoavelmente cerca de 1000 músicas ou 60 horas de música.

Eu classificaria com várias aulas, então é possível que uma aula tenha entre 50 e 100 músicas no conjunto de treinamento - isso parece muito pouco! Existe uma regra geral para a quantidade de dados necessários para treinar uma rede neural para tentar trabalhar?

Edit: Eu estava pensando em usar um LSTM de baunilha. Os recursos de entrada terão a dimensão 39, dimensão de saída 6, minha primeira tentativa de dimensão da camada oculta seria 100.

neural-networks arrey
fonte

Isso não é realmente responsável, porque nem todas as tarefas são fáceis, e diferentes arquiteturas de rede e seleções de hiperparâmetros melhoram / prejudicam modelos diferentes de maneiras diferentes.

Sycorax diz Reinstate Monica

No mínimo, você precisa especificar sua estrutura de rede e quantos links haverá para treinar.

gung - Restabelece Monica

Respostas:

Realmente depende do seu conjunto de dados e da arquitetura da rede. Uma regra geral que li (2) foi de alguns milhares de amostras por classe para a rede neural começar a ter um desempenho muito bom.

Na prática, as pessoas tentam ver. Não é raro encontrar estudos mostrando resultados decentes com um conjunto de treinamento menor que 1000 amostras.

Uma boa maneira de avaliar até que ponto pode ser benéfico ter mais amostras de treinamento é traçar o desempenho da rede neural com base no tamanho do conjunto de treinamento, por exemplo, a partir de (1):

(1) Dernoncourt, Franck, Ji Young Lee, Ozlem Uzuner e Peter Szolovits. " Desidentificação das anotações do paciente com redes neurais recorrentes " arXiv preprint arXiv: 1606.03475 (2016).
(2) Cireşan, Dan C., Ueli Meier e Jürgen Schmidhuber. "Transfira o aprendizado de caracteres latinos e chineses com redes neurais profundas." Na Conferência Conjunta Internacional Internacional de Redes Neurais de 2012 (IJCNN), pp. 1-6. IEEE, 2012. https://scholar.google.com/scholar?cluster=7452424507909578812&hl=pt_BR&as_sdt=0,22 ; http://people.idsia.ch/~ciresan/data/ijcnn2012_v9.pdf :

Para tarefas de classificação com alguns milhares de amostras por classe , não é fácil demonstrar o benefício do pré-treinamento (não supervisionado ou supervisionado).

Franck Dernoncourt
fonte