Quando implementei o mini gradiente de lote decente, apenas calculei a média dos gradientes de todos os exemplos no lote de treinamento. No entanto, notei que agora a taxa de aprendizado ideal é muito maior do que a do gradiente on-line decente. Minha intuição é que isso ocorre porque o gradiente médio é menos barulhento e, portanto, poderia ser seguido mais rapidamente. Portanto, talvez também faça sentido apenas resumir os gradientes de um lote. Os valores podem ser positivos e negativos de qualquer maneira.
Eu sei que é apenas um fator constante que pode ser equilibrado usando a taxa de aprendizado. Mas me pergunto qual é a definição que os cientistas concordaram para que eu possa reproduzir resultados de documentos de redes neurais.
Normalmente, dividimos os gradientes somados de um lote pelo tamanho do lote?