Redes Neurais: momento de mudança de peso e decaimento de peso

41

Momentum é usado para diminuir as flutuações nas alterações de peso em iterações consecutivas:α

E(w)wη

ΔωEu(t+1)=-ηEWEu+αΔωEu(t),
que é a função de erro, - o vetor de pesos, - taxa de aprendizado.E(W)Wη

A redução de peso penaliza as alterações de peso:λ

ΔωEu(t+1)=-ηEWEu-ληωEu

A questão é se faz sentido combinar os dois truques durante a propagação traseira e que efeito isso teria?

ΔωEu(t+1)=-ηEWEu+αΔωEu(t)-ληωEu
Oleg Shirokikh
fonte
1
Você quer dizer ωi (t + 1) = ωi - η ∂E / ∂wi + αΔωi (t), em vez de Δωi (t + 1) = ωi - η∂E / ∂wi + αΔωi (t)?
precisa saber é o seguinte

Respostas:

48

Sim, é muito comum usar os dois truques. Eles resolvem problemas diferentes e podem trabalhar bem juntos.

Uma maneira de pensar sobre isso é que a redução de peso altera a função que está sendo otimizada , enquanto o momento altera o caminho que você segue para o ideal .

A redução de peso, reduzindo seus coeficientes para zero, garante que você encontre um ótimo local com parâmetros de pequena magnitude. Isso geralmente é crucial para evitar ajustes excessivos (embora outros tipos de restrições nos pesos também possam funcionar). Como benefício colateral, ele também pode facilitar a otimização do modelo, tornando a função objetivo mais convexa.

Depois de ter uma função objetiva, você deve decidir como se mover nela. A descida mais acentuada no gradiente é a abordagem mais simples, mas você está certo de que as flutuações podem ser um grande problema. Adicionar impulso ajuda a resolver esse problema. Se você estiver trabalhando com atualizações em lote (o que geralmente é uma má idéia para redes neurais), as etapas do tipo Newton são outra opção. As novas abordagens "quentes" são baseadas no gradiente acelerado de Nesterov e na otimização "livre de Hessian".

Mas, independentemente de qual dessas regras de atualização você usa (momento, Newton, etc.), você ainda está trabalhando com a mesma função objetivo, determinada pela sua função de erro (por exemplo, erro ao quadrado) e outras restrições (por exemplo, redução de peso) . A principal questão ao decidir qual delas usar é a rapidez com que você obterá um bom conjunto de pesos.

David J. Harris
fonte
'ele também pode facilitar a otimização do modelo, tornando a função objetivo mais convexa' - você poderia explicar como pesos menores tornam isso possível?
Alex
sEun(x)umax2uma
Boa resposta, obrigado. E o Adam Optimizer? Ele tem um desempenho melhor do que a combinação de decaimento e momento do peso?
A.Piro
Adam é como impulso, mas não como decaimento de peso; afeta como você navega na função objetivo, mas não na função objetivo em si.
David J. Harris