Estou treinando uma rede neural usando i) SGD e ii) Adam Optimizer. Ao usar o SGD normal, recebo uma curva suave de perda de treinamento versus iteração , como visto abaixo (o vermelho). No entanto, quando usei o Adam Optimizer, a curva de perda de treinamento tem alguns picos. Qual é a explicação...