Какие методы оптимизации лучше всего подходят для LSTM?

20

Я использовал theano для экспериментов с LSTM, и мне было интересно, какие методы оптимизации (SGD, Adagrad, Adadelta, RMSprop, Adam и т. Д.) Лучше всего подходят для LSTM? Есть ли исследовательские работы на эту тему?

Кроме того, зависит ли ответ от типа приложения, для которого я использую LSTM? Если это так, я использую LSTM для классификации текста (где текст сначала преобразуется в векторы слов).

Наконец, будут ли ответы одинаковыми или разными для RNN? Любые указатели на научные статьи, или личное понимание будет высоко ценится!

LSTM кажутся достаточно мощными, и мне интересно узнать больше о том, как их лучше всего использовать.

яблочный сидр
источник

Ответы:

7

По иронии судьбы лучшими оптимизаторами для LSTM являются сами LSTM: https://arxiv.org/abs/1606.04474 Учиться учиться с помощью градиентного спуска и градиентного спуска.

Основная идея состоит в том, чтобы использовать нейронную сеть (в частности, здесь сеть LSTM) для совместного обучения и обучения градиентам исходной сети. Это называется мета-обучение.

Хотя этот метод был предложен Юргеном Шмидхубером в 2000 году, только недавно было показано, что он превосходит другие оптимизаторы в обучении RNN. (см. оригинальную статью для хорошей графики)

Anona112
источник
Можете ли вы расширить, рассказав нам, что говорит ссылка?
августа
исправлено для вашего удовольствия. Поскольку первоначальный вопрос был «Какие методы оптимизации работают лучше всего для LSTM?» не «Как работают лучшие методы оптимизации для LSTM», я оставлю это на этом.
Anona112
4

В целом нет четких доказательств того, какой метод оптимизации использовать в каком сценарии. Был проведен некоторый анализ поведения этих методов при различных сценариях, однако ничто не является окончательным. Если вы хотите погрузиться в это, то я рекомендую: http://papers.nips.cc/paper/5486-identifying-and-attacking-the-saddle-point-problem-in-high-dimensional-non-convex- optimization.pdf

Чтобы хотя бы дать вам какой-то ответ, я бы сказал, что часто конфигурация вашей процедуры оптимизации важнее, чем сама процедура.

Кроме того, я рекомендую вам заглянуть в документы, чтобы увидеть, какие методы используются. Алекс Грейвс из примера выиграл от использования RMSprop в большинстве своих публикаций о генерации последовательностей.

Сьерд
источник