Comportamento estranho com o otimizador Adam ao treinar por muito tempo

Estou tentando treinar um único perceptron (1000 unidades de entrada, 1 saída, sem camadas ocultas) em 64 pontos de dados gerados aleatoriamente. Estou usando o Pytorch usando o otimizador Adam: import torch from torch.autograd import Variable torch.manual_seed(545345) N, D_in, D_out = 64, 1000,...