Я тренирую нейронную сеть, используя i) SGD и ii) Adam Optimizer. При использовании обычного SGD я получаю плавную кривую потери обучения и итерации, как показано ниже (красная). Тем не менее, когда я использовал Adam Optimizer, кривая тренировочных потерь имела некоторые всплески. Чем объясняются...