Ao atualizar os pesos de uma rede neural usando o algoritmo de retropropagação com um termo de momento, a taxa de aprendizado também deve ser aplicada ao termo de momento?
A maioria das informações que pude encontrar sobre o uso do momento tem as equações parecidas com esta:
onde é a taxa de aprendizado e é o termo do momento.
se o termo for maior que o termo , na próxima iteração, o da iteração anterior terá uma influência maior no peso que o atual.
Esse é o objetivo do termo momentum? ou a equação deve se parecer mais com isso?
ie escalando tudo pela taxa de aprendizado?
fonte