Soma ou média de gradientes no (mini) gradiente de lote decente?

15

Quando implementei o mini gradiente de lote decente, apenas calculei a média dos gradientes de todos os exemplos no lote de treinamento. No entanto, notei que agora a taxa de aprendizado ideal é muito maior do que a do gradiente on-line decente. Minha intuição é que isso ocorre porque o gradiente médio é menos barulhento e, portanto, poderia ser seguido mais rapidamente. Portanto, talvez também faça sentido apenas resumir os gradientes de um lote. Os valores podem ser positivos e negativos de qualquer maneira.

Eu sei que é apenas um fator constante que pode ser equilibrado usando a taxa de aprendizado. Mas me pergunto qual é a definição que os cientistas concordaram para que eu possa reproduzir resultados de documentos de redes neurais.

Normalmente, dividimos os gradientes somados de um lote pelo tamanho do lote?

danijar
fonte

Respostas:

21

Média.

Exemplos: Notas sobre o curso de aprendizado de máquina de Andrew Ng sobre o Coursera compilado por Alex Holehouse.

Somando os gradientes devido a amostras individuais, você obtém um gradiente muito mais suave. Quanto maior o lote, mais suave será o gradiente resultante usado na atualização do peso.

Dividir a soma pelo tamanho do lote e calcular o gradiente médio tem o efeito de:

  1. A magnitude do peso não cresce fora de proporção. A adição de regularização L2 à atualização de peso penaliza grandes valores de peso. Isso geralmente leva a um melhor desempenho de generalização. Tomando a média, especialmente se os gradientes apontarem na mesma direção, evite que os pesos fiquem muito grandes.
  2. A magnitude do gradiente é independente do tamanho do lote. Isso permite a comparação de pesos de outras experiências usando diferentes tamanhos de lote.
  3. O combate ao efeito do tamanho do lote com a taxa de aprendizado pode ser numericamente equivalente, mas você acaba com uma taxa de aprendizado específica da implementação. Isso dificulta a comunicação dos resultados e da configuração experimental se as pessoas não puderem se relacionar com a escala de parâmetros que você está usando e elas terão problemas para reproduzir sua experiência.

A média permite comparabilidade mais clara e mantém as magnitudes de gradiente independentes do tamanho do lote. A escolha de um tamanho de lote às vezes é restringida pelos recursos computacionais que você possui e deseja mitigar o efeito disso ao avaliar seu modelo.

ypx
fonte
O link está morto
cdeterman
1
link atualizado, não é mais possível vincular aos slides originais, então optou por notas bem compiladas de Alex Holehouse .
ypx 06/07
Este tutorial parece ser mais um somatório do que uma média .. deeplearning.net/tutorial/gettingstarted.html#regularization
AD