Redes neurais: uma época no SGD é a mesma do mini lote?

8

No SGD, uma época seria a apresentação completa dos dados de treinamento e haveria N atualizações de peso por época (se houver N exemplos de dados no conjunto de treinamento).

Se agora fizermos mini-lotes, digamos em lotes de 20. Agora, uma época consiste em atualizações de peso N / 20 ou uma época é 'prolongada' em 20 para que contenha o mesmo número de atualizações de peso?

Eu pergunto isso, pois em alguns artigos o aprendizado parece ser rápido demais para o número de épocas declaradas.

James
fonte
A questão está mais na convenção, ou seja, se alguém declarar ter treinado uma rede por 10 épocas usando mini-lotes de 20, isso significa que houve 10 * N atualizações de peso ou 10 * N / 20?
James
Sinto muito pela confusão, talvez stats.stackexchange.com/a/164875/12359 responda sua pergunta?
Franck Dernoncourt 16/08/16

Respostas:

6

Na terminologia da rede neural:

  • uma época = uma passagem para frente e uma passagem para trás de todos os exemplos de treinamento
  • tamanho do lote = o número de exemplos de treinamento em uma passagem para frente / trás. Quanto maior o tamanho do lote, mais espaço de memória será necessário.
  • número de iterações = número de passagens, cada passagem usando o número de exemplos [tamanho do lote]. Para ser claro, uma passagem = uma passagem para frente + uma passagem para trás (não contamos a passagem para frente e para trás como duas passagens diferentes).

Exemplo: se você tiver 1000 exemplos de treinamento e seu tamanho de lote for 500, serão necessárias duas iterações para concluir uma época.

Franck Dernoncourt
fonte
1

A resposta de Franck não está correta. É preciso coragem para dizer isso porque ele tem muito mais representantes do que eu e muitas pessoas já votaram a favor.

Época é uma palavra que significa uma única passagem por um conjunto de treinamento, nem todos os exemplos de treinamento.

Então sim. Se fizermos mini-lotes GD em vez de um lote GD, digamos em lotes de 20, uma época agora consiste em atualizações de peso N / 20. N é o número total de amostras.

Para ser detalhado, em uma descida de gradiente em lote, uma única passagem pelo treinamento permite executar apenas uma etapa de descida de gradiente. Com a descida em gradiente de minilote (tamanho do lote = 5.000), uma única passagem pelo conjunto de treinamento, que é uma época, permite executar 5.000 etapas de descida em gradiente.

Aerin
fonte