Почему RNN с блоками LSTM также могут страдать от «взрывных градиентов»?

У меня есть базовые знания о том, как работают RNN (и, в частности, с блоками LSTM). У меня есть графическое представление об архитектуре модуля LSTM, то есть ячейки и нескольких шлюзов, которые регулируют поток значений.

Однако, по-видимому, я не до конца понял, как LSTM решает проблему «исчезающих и взрывающихся градиентов», которая возникает при обучении с использованием обратного распространения во времени обычной RNN. У меня не было возможности читать газеты, чтобы полностью понять математику.

Этот ответ дает краткое объяснение того, как RNN с блоками LSTM решают проблему «исчезающих градиентов». Математически, причина, по-видимому, заключается в отсутствии производной, которая не обращается в ноль, то есть не стремится к нулю. Следовательно, автор утверждает, что «существует хотя бы один путь, в котором градиент не исчезает». ИМХО, это объяснение немного расплывчато.

Тем временем я читал статью « Последовательность к обучению последовательностей с нейронными сетями» (Илья Суцкевер, Ориол Виньялс, Куок В. Ле), и в этой статье, раздел «3.4 Детали обучения», говорится

Хотя LSTM, как правило, не страдают от исчезающей проблемы градиента, они могут иметь взрывные градиенты.

Я всегда думал, что RNN с блоками LSTM решают проблемы «исчезновения» и «взрывающихся градиентов», но, очевидно, RNN с блоками LSTM также страдают от «взрывающихся градиентов».

Интуитивно, почему это? Математически, каковы причины?

neural-networks lstm rnn backpropagation nbro
источник

Ответы:

Очень короткий ответ:

LSTM разделяет состояние ячейки (обычно обозначается c) и скрытый слой / вывод (обычно обозначается h) и выполняет только аддитивные обновления c, что делает память cболее стабильной. Таким образом, градиент потока cпроходит и трудно исчезнуть (поэтому общий градиент трудно исчезнуть). Однако другие пути могут вызвать градиентный взрыв.

Более подробный ответ с математическим объяснением:

tt+1 $dl/dc^{t}$ yh $\delta c^t = \dots + \delta c^{t+1} \odot f^{t+1}$ $f^{t+1}$ $\delta c^{t+1}$ $\delta c^t$

$c^{t}$ $c^{t+1}$ $y^t \rightarrow o^{t+1} \rightarrow y^{t+1}$ $\delta y^t \leftarrow R^T_o \delta o^{t+1} \leftarrow \delta y^{t+1} \leftarrow R^T_o \delta o^{t+2}$ $R^T_o$ $R^T_i, R^T_f, R^T_z$

Ссылка:

К. Грефф, Р. К. Шривастава, Я. Коутник, Б. Р. Стейнбринк и Я. Шмидхубер. LSTM: поисковая космическая одиссея. CoRR, abs / 1503.04069, 2015.

soloice
источник

Не могли бы вы привести полную цитату для этой статьи? Ссылки имеют тенденцию выходить из строя.

mkt - Восстановить Монику

@mkt Спасибо за ваш совет. На самом деле это очень известная статья, и ссылка идет на arXiv, так что она вряд ли умрет, но не забудьте проверить версию v1 (поскольку текущая версия v2 не содержит приложения).

соло

В любом случае, спасибо за добавление и подробности о приложении.

mkt - Восстановить Монику

Отличный ответ, я обычно не комментирую, чтобы поставить +1, но это заслуживает этого. Показ реального примера с матричной алгеброй возможных нестабильных путей в ячейке LSTM точно отвечает ОП.

DeltaIV

{0.99}^{200} \approx 0.134

$0.99^{200} \approx 0.134$

1^{200} = 1

$1^{200} = 1$

{1.01}^{200} \approx 13

$1.01^{200} \approx 13$

Однако есть еще пути, по которым градиент может стать нестабильным, и чем больше сеть, тем более вероятно, что вы столкнетесь с этой проблемой.

Луги
источник

Почему это ответит на мой вопрос? Я хотел бы знать детали.

августа