Глубокая учебная литература полна умных трюков с использованием непостоянных скоростей обучения при градиентном спуске. Такие вещи, как экспоненциальный распад, RMSprop, Adagrad и т. Д., Легко реализовать и они доступны в каждом пакете глубокого обучения, но, похоже, их не существует за пределами нейронных сетей. Есть ли причина для этого? Если людям просто все равно, есть ли причина, почему мы не должны заботиться вне нейронных сетей?
14
Ответы:
Отказ от ответственности: у меня нет такого большого опыта в оптимизации вне нейронных сетей, поэтому мой ответ будет явно предвзятым, но есть несколько вещей, которые играют роль:
(Глубокие) нейронные сети имеют много параметров . Это имеет несколько последствий:
Во-первых, он как бы исключает методы более высокого порядка просто потому, что вычисление гессиана и высших производных становится невозможным. В других доменах это может быть правильным подходом лучше, чем любые настройки SGD.
Во-вторых, хотя SGD замечательный , он имеет тенденцию быть непрактично медленным. Эти улучшенные варианты SGD в основном обеспечивают более быстрое обучение, в то же время потенциально утрачивая некоторые приятные свойства SGD . В других областях время обучения SGD не может быть узким местом, поэтому улучшения, достигнутые за счет его ускорения, могут быть просто незначительными.
Обучение (глубоким) нейронным сетям является невыпуклой оптимизацией, и я не знаю о значительных выпуклых результатах релаксации в поле. В отличие от других областей, нейронные сети не ориентированы на доказуемо глобально оптимальные решения, что приводит к тому, что мы вкладываем больше усилий в улучшение свойств поверхности потерь и ее обхода при оптимизации.
В других областях использование выпуклой релаксации и получение глобально оптимальных решений может оказаться в центре интереса вместо алгоритма оптимизации, поскольку, если задача определена как выпуклая задача, выбор алгоритма оптимизации не может улучшить качество решения. ,
Я полагаю, что этот ответ не охватывает все возможные аспекты, и мне самому любопытно узнать другие мнения.
источник