Como o termo de momento para o algoritmo de retropropagação funciona?

9

Ao atualizar os pesos de uma rede neural usando o algoritmo de retropropagação com um termo de momento, a taxa de aprendizado também deve ser aplicada ao termo de momento?

A maioria das informações que pude encontrar sobre o uso do momento tem as equações parecidas com esta:

WEu=WEu-αΔWEu+μΔWEu-1 1

onde α é a taxa de aprendizado e μ é o termo do momento.

se o termo for maior que o termo , na próxima iteração, o da iteração anterior terá uma influência maior no peso que o atual.μαΔW

Esse é o objetivo do termo momentum? ou a equação deve se parecer mais com isso?

WEu=WEu-α(ΔWEu+μΔWEu-1 1)

ie escalando tudo pela taxa de aprendizado?

guskenny83
fonte

Respostas:

10

Usando retropropagação com momento em uma rede com pesos diferentes W k, a i- ésima correção do peso W k é dada pornWkiWk

ondeEΔWk(i)=αEWk+μΔWk(i1) representa a variação da perda wrtWk.EWkWk

A introdução da taxa de momento permite a atenuação das oscilações na descida do gradiente. A idéia geométrica por trás dessa idéia provavelmente pode ser melhor entendida em termos de uma análise do espaço próprio no caso linear. Se a razão entre o menor e o maior autovalor for grande, a execução de uma descida de gradiente será lenta, mesmo se a taxa de aprendizado for grande devido ao condicionamento da matriz. O momento introduz um certo equilíbrio na atualização entre os vetores próprios associados aos valores próprios menores e maiores.

Para mais detalhes, refiro-me a

http://page.mi.fu-berlin.de/rojas/neural/chapter/K8.pdf

nico
fonte
O que significa o underbrace?
David Richerby
ok, então o termo do momento é incorporado ao calcular o termo , em vez de ser adicionado ao calcular o "novo" valor do peso? Apenas para esclarecer, seu termo μ W k ( i - 1 ) deve ser μ Δ W k ( i - 1 ) ? ou é uma proporção do peso real e não a mudança na taxa? obrigado por sua resposta e pelo link para o artigo. ΔWkμWk(i1)μΔWk(i1)
guskenny83
obrigado por apontar o erro. É claro que ΔWk(i1)
nico 14/10
O que você quer dizer com "variação da perda"? Isso é algo como "variação no erro"?
starbeamrainbowlabs
Significa apenas a derivada do erro em relação aos pesos.
Nico 8/18