Похоже, что оптимизатор адаптивной оценки моментов (Адам) почти всегда работает лучше (быстрее и надежнее, достигая глобального минимума) при минимизации функции стоимости в обучении нейронных сетей.
Почему не всегда использовать Адама? Зачем вообще использовать RMSProp или оптимизаторы импульса?
neural-network
optimization
PyRsquared
источник
источник
Ответы:
Вот сообщение в блоге, в котором рассматривается статья, в которой утверждается, что SGD - лучший обобщенный адаптер, чем ADAM. https://shaoanlu.wordpress.com/2017/05/29/sgd-all-which-one-is-the-best-optimizer-dogs-vs-cats-toy-experiment/
Часто имеет смысл использовать более одного метода (ансамбля), потому что у каждого метода есть слабость.
источник
Вы также должны взглянуть на этот пост, сравнивая различные оптимизаторы градиентного спуска. Как вы можете видеть ниже, Адам явно не лучший оптимизатор для некоторых задач, поскольку многие сходятся лучше.
источник