No SGD, uma época seria a apresentação completa dos dados de treinamento e haveria N atualizações de peso por época (se houver N exemplos de dados no conjunto de treinamento).
Se agora fizermos mini-lotes, digamos em lotes de 20. Agora, uma época consiste em atualizações de peso N / 20 ou uma época é 'prolongada' em 20 para que contenha o mesmo número de atualizações de peso?
Eu pergunto isso, pois em alguns artigos o aprendizado parece ser rápido demais para o número de épocas declaradas.
Respostas:
Na terminologia da rede neural:
Exemplo: se você tiver 1000 exemplos de treinamento e seu tamanho de lote for 500, serão necessárias duas iterações para concluir uma época.
fonte
A resposta de Franck não está correta. É preciso coragem para dizer isso porque ele tem muito mais representantes do que eu e muitas pessoas já votaram a favor.
Época é uma palavra que significa uma única passagem por um conjunto de treinamento, nem todos os exemplos de treinamento.
Então sim. Se fizermos mini-lotes GD em vez de um lote GD, digamos em lotes de 20, uma época agora consiste em atualizações de peso N / 20. N é o número total de amostras.
Para ser detalhado, em uma descida de gradiente em lote, uma única passagem pelo treinamento permite executar apenas uma etapa de descida de gradiente. Com a descida em gradiente de minilote (tamanho do lote = 5.000), uma única passagem pelo conjunto de treinamento, que é uma época, permite executar 5.000 etapas de descida em gradiente.
fonte