Почему RNN с блоками LSTM также могут страдать от «взрывных градиентов»?

13

У меня есть базовые знания о том, как работают RNN (и, в частности, с блоками LSTM). У меня есть графическое представление об архитектуре модуля LSTM, то есть ячейки и нескольких шлюзов, которые регулируют поток значений.

Однако, по-видимому, я не до конца понял, как LSTM решает проблему «исчезающих и взрывающихся градиентов», которая возникает при обучении с использованием обратного распространения во времени обычной RNN. У меня не было возможности читать газеты, чтобы полностью понять математику.

Этот ответ дает краткое объяснение того, как RNN с блоками LSTM решают проблему «исчезающих градиентов». Математически, причина, по-видимому, заключается в отсутствии производной, которая не обращается в ноль, то есть не стремится к нулю. Следовательно, автор утверждает, что «существует хотя бы один путь, в котором градиент не исчезает». ИМХО, это объяснение немного расплывчато.

Тем временем я читал статью « Последовательность к обучению последовательностей с нейронными сетями» (Илья Суцкевер, Ориол Виньялс, Куок В. Ле), и в этой статье, раздел «3.4 Детали обучения», говорится

Хотя LSTM, как правило, не страдают от исчезающей проблемы градиента, они могут иметь взрывные градиенты.

Я всегда думал, что RNN с блоками LSTM решают проблемы «исчезновения» и «взрывающихся градиентов», но, очевидно, RNN с блоками LSTM также страдают от «взрывающихся градиентов».

Интуитивно, почему это? Математически, каковы причины?

nbro
источник

Ответы:

12

Очень короткий ответ:

LSTM разделяет состояние ячейки (обычно обозначается c) и скрытый слой / вывод (обычно обозначается h) и выполняет только аддитивные обновления c, что делает память cболее стабильной. Таким образом, градиент потока cпроходит и трудно исчезнуть (поэтому общий градиент трудно исчезнуть). Однако другие пути могут вызвать градиентный взрыв.


Более подробный ответ с математическим объяснением:

tt+1dl/dctyhδct=+δct+1ft+1ft+1δct+1δct

ctct+1ytot+1yt+1δytRoTδot+1δyt+1RoTδot+2RoTRiT,RfT,RzT

Ссылка:

К. Грефф, Р. К. Шривастава, Я. Коутник, Б. Р. Стейнбринк и Я. Шмидхубер. LSTM: поисковая космическая одиссея. CoRR, abs / 1503.04069, 2015.

soloice
источник
Не могли бы вы привести полную цитату для этой статьи? Ссылки имеют тенденцию выходить из строя.
mkt - Восстановить Монику
2
@mkt Спасибо за ваш совет. На самом деле это очень известная статья, и ссылка идет на arXiv, так что она вряд ли умрет, но не забудьте проверить версию v1 (поскольку текущая версия v2 не содержит приложения).
соло
В любом случае, спасибо за добавление и подробности о приложении.
mkt - Восстановить Монику
Отличный ответ, я обычно не комментирую, чтобы поставить +1, но это заслуживает этого. Показ реального примера с матричной алгеброй возможных нестабильных путей в ячейке LSTM точно отвечает ОП.
DeltaIV
3

0.992000.134
1200=1
1.0120013

Однако есть еще пути, по которым градиент может стать нестабильным, и чем больше сеть, тем более вероятно, что вы столкнетесь с этой проблемой.

Луги
источник
3
Почему это ответит на мой вопрос? Я хотел бы знать детали.
августа