Parece que o otimizador Adaptive Moment Estimation (Adam) quase sempre funciona melhor (atingindo um mínimo global mais rápido e confiável) ao minimizar a função de custo no treinamento de redes neurais.
Por que nem sempre usa Adam? Por que se preocupar em usar o RMSProp ou otimizadores de momento?
neural-network
optimization
PyRsquared
fonte
fonte
Respostas:
Aqui está uma postagem de blog revisando um artigo alegando que o SGD é um adaptador generalizado melhor que o ADAM. https://shaoanlu.wordpress.com/2017/05/29/sgd-all-which-one-is-the-best-optimizer-dogs-vs-cats-toy-experiment/
Geralmente, há um valor em usar mais de um método (um conjunto), porque todo método tem uma fraqueza.
fonte
Você também deve dar uma olhada nesta publicação comparando diferentes otimizadores de descida de gradiente. Como você pode ver abaixo, Adam claramente não é o melhor otimizador para algumas tarefas, pois muitas convergem melhor.
fonte