Я использовал theano для экспериментов с LSTM, и мне было интересно, какие методы оптимизации (SGD, Adagrad, Adadelta, RMSprop, Adam и т. Д.) Лучше всего подходят для LSTM? Есть ли исследовательские работы на эту тему?
Кроме того, зависит ли ответ от типа приложения, для которого я использую LSTM? Если это так, я использую LSTM для классификации текста (где текст сначала преобразуется в векторы слов).
Наконец, будут ли ответы одинаковыми или разными для RNN? Любые указатели на научные статьи, или личное понимание будет высоко ценится!
LSTM кажутся достаточно мощными, и мне интересно узнать больше о том, как их лучше всего использовать.
источник
В целом нет четких доказательств того, какой метод оптимизации использовать в каком сценарии. Был проведен некоторый анализ поведения этих методов при различных сценариях, однако ничто не является окончательным. Если вы хотите погрузиться в это, то я рекомендую: http://papers.nips.cc/paper/5486-identifying-and-attacking-the-saddle-point-problem-in-high-dimensional-non-convex- optimization.pdf
Чтобы хотя бы дать вам какой-то ответ, я бы сказал, что часто конфигурация вашей процедуры оптимизации важнее, чем сама процедура.
Кроме того, я рекомендую вам заглянуть в документы, чтобы увидеть, какие методы используются. Алекс Грейвс из примера выиграл от использования RMSprop в большинстве своих публикаций о генерации последовательностей.
источник