Что такое рекуррентная нейронная сеть?

12

Удивительно, но об этом раньше не спрашивали - по крайней мере, я не нашел ничего, кроме некоторых смутно связанных вопросов.

Итак, что такое рекуррентная нейронная сеть и каковы их преимущества перед обычными NN?

olinarr
источник
1
Смотрите сообщение в блоге « Понимание сетей LSTM » Кристофера Олаха.
Мистер

Ответы:

6

Рекуррентные нейронные сети (RNN) представляют собой класс искусственной архитектуры нейронных сетей, основанной на циклическом соединении нейронов в мозге. Он использует итеративные циклы функций для хранения информации.

Разница с традиционными нейронными сетями с использованием картинок из этой книги :

введите описание изображения здесь

И RNN:

введите описание изображения здесь

Обратите внимание на разницу - соединения нейронных сетей с прямой связью не образуют циклов. Если мы ослабим это условие, а также допустим циклические связи, мы получим рекуррентные нейронные сети (RNN). Вы можете видеть это в скрытом слое архитектуры.

Хотя различие между многослойным персептроном и RNN может показаться незначительным, последствия для изучения последовательности являются далеко идущими. MLP может отображать только входные и выходные векторы , тогда как RNN в принципе может отображать всю историю предыдущих входных данных на каждый выходной . Действительно, эквивалентный результат теории универсального приближения для MLP состоит в том, что RNN с достаточным количеством скрытых единиц может аппроксимировать любое измеримое отображение последовательность-последовательность с произвольной точностью.

Важный вынос:

Периодические соединения позволяют «памяти» предыдущих входов сохраняться во внутреннем состоянии сети и, таким образом, влиять на выход сети.

Разговоры о преимуществах неуместны, так как они являются современными и особенно хороши в определенных задачах. Широкая категория задач, в которых RNN превосходит следующие:

Маркировка последовательности

Целью маркировки последовательностей является назначение последовательностей меток, взятых из фиксированного алфавита, последовательностям входных данных.

Пример: Переписать последовательность акустических функций с произнесенными словами (распознавание речи) или последовательность видеокадров с жестами (распознавание жестов).

Некоторые из подзадач в маркировке последовательности:

Классификация последовательности

Последовательности меток должны иметь длину один. Это называется классификацией последовательностей, поскольку каждая входная последовательность присваивается одному классу. Примеры задач классификации последовательности включают идентификацию одного разговорного произведения и распознавание отдельного рукописного письма.

Сегментная классификация

Классификация сегментов относится к тем задачам, где целевые последовательности состоят из нескольких меток, но расположение меток, то есть позиции входных сегментов, к которым применяются метки, известно заранее.

наивный
источник
9

Рецидивирующий нейронная сеть (РННЫ) является искусственной нейронной сетью , которая содержит отсталое или сам-соединение, а не только имеющие вперед соединение, как в прямоточной нейронной сети (FFNN). Прилагательное «возвратный», таким образом, относится к этим отсталым или самоподключениям, которые создают петли в этих сетях.

RNN может быть обучен с использованием обратного распространения во времени (BBTT), так что эти обратные или самоподключения «запоминают» ранее увиденные входы. Следовательно, эти соединения в основном используются для отслеживания временных отношений между элементами последовательности входов, что делает RNN хорошо подходящими для прогнозирования последовательности и аналогичных задач.

Существует несколько моделей RNN: например, RNN с блоками LSTM или GRU. LSTM (или GRU) - это RNN, чьи единичные блоки выполняют более сложное преобразование, чем единица в «обычном RNN», которая выполняет линейное преобразование входа с последующим применением к нему нелинейной функции (например, ReLU). линейное преобразование. Теоретически, «простые RNN» так же мощны, как и RNN с блоками LSTM. На практике они страдают от проблемы «исчезающих и взрывающихся градиентов». Следовательно, на практике используются LSTM (или аналогичные сложные рекуррентные единицы).

нбро
источник