Por que nem sempre usar a técnica de otimização do ADAM?

13

Parece que o otimizador Adaptive Moment Estimation (Adam) quase sempre funciona melhor (atingindo um mínimo global mais rápido e confiável) ao minimizar a função de custo no treinamento de redes neurais.

Por que nem sempre usa Adam? Por que se preocupar em usar o RMSProp ou otimizadores de momento?

PyRsquared
fonte
1
Não acredito que exista uma maneira formal e estrita de apoiar qualquer uma dessas afirmações. É tudo puramente empírico, pois a superfície do erro é desconhecida. Como uma regra de ouro, e exclusivamente a partir de m experiência, ADAM faz bem onde outros falham (segmentação exemplo), embora não sem inconvenientes (convergência não monótona é)
Alex
2
Adam é mais rápido para convergir. O SGD é mais lento, mas generaliza melhor. Então, no final, tudo depende de suas circunstâncias particulares.
precisa saber é

Respostas:

4

Você também deve dar uma olhada nesta publicação comparando diferentes otimizadores de descida de gradiente. Como você pode ver abaixo, Adam claramente não é o melhor otimizador para algumas tarefas, pois muitas convergem melhor.

M Sef
fonte
Apenas para constar: no artigo vinculado, eles mencionam algumas das falhas do ADAM e apresentam a AMSGrad como uma solução. No entanto, eles concluem que se a AMSGrad supera o ADAM nas práticas é (no momento da redação deste documento) não conclusivo.
Lus