Так в чем же подвох с LSTM?

12

Я расширяю свои знания о пакете Keras и работаю с некоторыми из доступных моделей. У меня есть проблема двоичной классификации НЛП, которую я пытаюсь решить, и я применяю разные модели.

Поработав с некоторыми результатами и прочитав все больше и больше о LSTM, кажется, что этот подход намного превосходит все, что я пробовал (для нескольких наборов данных). Я продолжаю думать про себя: «Почему / когда бы вы не использовали LSTM?». Использование дополнительных затворов, присущих LSTM, имеет для меня прекрасный смысл после того, как у меня появилось несколько моделей, которые страдают от исчезающих градиентов.

Так в чем же подвох с LSTM? Где они не так хорошо? Я знаю, что не существует такого понятия, как алгоритм «один размер подходит всем», поэтому у LSTM должна быть обратная сторона.

I_Play_With_Data
источник
Попробуйте GRU, они похожи на LSTM, но требуют меньше памяти и тренируются быстрее.
Вивек Хетан

Ответы:

11

Вы правы, что LSTM очень хорошо работают для некоторых проблем, но некоторые недостатки:

  • LSTM тренируются дольше
  • LSTM требуют больше памяти для обучения
  • LSTM легко надеть
  • Dropout гораздо сложнее реализовать в LSTM
  • LSTM чувствительны к различным случайным инициализациям веса

Это по сравнению с более простой моделью, такой как, например, 1-мерная сеть.

Первые три пункта потому, что у LSTM больше параметров.

Имран
источник
3
Согласен, и я думаю, что переоснащение (иначе плохое обобщение), возможно, самый большой риск. Убедитесь, что у вас есть хорошая стратегия для проверки модели.
Том