Странное поведение с оптимизатором Адама, когда тренируешься слишком долго

Я пытаюсь обучить один персептрон (1000 входных единиц, 1 выходной, без скрытых слоев) на 64 случайно сгенерированных точках данных. Я использую Pytorch с помощью оптимизатора Adam: import torch from torch.autograd import Variable torch.manual_seed(545345) N, D_in, D_out = 64, 1000, 1 x =...