Преимущества штабелирования LSTM?

Ответы:

7

Из чего заключаются преимущества объединения нескольких LSTM? (Я только обновлю ответ там):

С 1}:

Хотя теоретически не ясно, какова дополнительная мощность, получаемая более глубокой архитектурой, эмпирически было замечено, что глубокие RNN работают лучше, чем более мелкие, в некоторых задачах. В частности, Sutskever и соавторы (2014) сообщают, что четырехуровневая глубокая архитектура имела решающее значение для достижения хороших характеристик машинного перевода в среде кодер-декодер. Irsoy и Cardie (2014) также сообщают об улучшенных результатах перехода от однослойного BI-RNN к архитектуре с несколькими уровнями. Многие другие работы сообщают о результате использования многоуровневых архитектур RNN, но явно не сравнивают с одноуровневыми RNN.


Ссылки:

Франк Дернонкур
источник
4

Одна из ситуаций, в которой выгодно складывать LSTM, - это когда мы хотим изучить иерархическое представление наших данных временных рядов. В сложенных LSTM каждый уровень LSTM выводит последовательность векторов, которые будут использоваться в качестве входных данных для последующего уровня LSTM. Эта иерархия скрытых слоев обеспечивает более сложное представление данных временных рядов, собирая информацию в разных масштабах.

Например, стекированные LSTM могут использоваться для повышения точности классификации временных рядов, таких как прогнозирование активности, при котором частота сердечных сокращений, счетчик шагов, GPS и другие сигналы могут использоваться для прогнозирования активности, такой как ходьба, бег, езда на велосипеде, подниматься по лестнице или отдыхать. Для примера классификации временных рядов со сложенными LSTM с использованием данных ЭЭГ взгляните на следующую записную книжку ipython .

Вадим Смоляков
источник
1

От последовательности к модели последовательности: Работа сети кодировщика заключается в считывании входной последовательности в нашу модель Seq2Seq и создании фиксированного размерного вектора C для последовательности. Для этого кодер будет использовать рекуррентную ячейку нейронной сети - обычно LSTM - для чтения входных токенов по одному. Конечное скрытое состояние ячейки затем станет C. Однако, поскольку так сложно сжать последовательность произвольной длины в один вектор фиксированного размера (особенно для сложных задач, таких как перевод), кодер обычно состоит из сложенных LSTM : серия «слоев» LSTM, где выходы каждого слоя являются входной последовательностью для следующего слоя. Скрытое состояние LSTM последнего слоя будет использоваться в качестве вектора контекста.

Умер Рана
источник