Por que o aprendizado profundo não funciona bem com pequena quantidade de dados?

Eu sou novo no aprendizado profundo, portanto essa pode ser uma pergunta trivial. Mas estou me perguntando por que o aprendizado profundo (ou rede neural) não funciona muito bem em pequenos dados rotulados. Quaisquer que sejam os trabalhos de pesquisa que eu tenha lido, seus conjuntos de dados são enormes. Intuitivamente, isso não é surpreendente, porque nosso cérebro leva muito tempo para se treinar. Mas existe uma prova matemática ou uma razão pela qual a rede neural não funciona bem nesses casos?

neural-networks deep-learning bluechill
fonte

Respostas:

As redes neurais usadas em modelos típicos de aprendizado profundo têm um número muito grande de nós com muitas camadas e, portanto, muitos parâmetros que devem ser estimados. Isso requer muitos dados. Uma pequena rede neural (com menos camadas e menos parâmetros livres) pode ser treinada com sucesso com um pequeno conjunto de dados - mas isso geralmente não seria descrito como "aprendizado profundo".

dcorney
fonte

+1. A complexidade do modelo sempre deve crescer lentamente com o tamanho da amostra, e o aprendizado profundo é um modelo bastante complexo, o que implica que geralmente não funcionará bem para tamanhos de amostra pequenos. Os Elementos de Aprendizagem Estatística ( disponíveis para download gratuitamente ) discute isso - altamente recomendado.

Stephan Kolassa

Obrigado. Isso significa que, se eu ainda tentar aprender um modelo usando dados pequenos, vou superajustá-lo?

22615 bluechill

É mais provável que você se ajuste demais se tiver uma pequena quantidade de dados em relação ao número de parâmetros em seu modelo - isso é verdade para qualquer modelo. Você pode adicionar regularizadores (por exemplo, penalizar grandes pesos, adicionar ruído aos dados de entrada, eliminar unidades ocultas etc.) ao seu modelo para ajudar a evitar isso, mas é uma espécie de arte e não de ciência no momento.

lmjohns3