Вопросы с тегом «lstm»

Долгосрочная краткосрочная память (LSTM) - это архитектура нейронной сети, которая содержит повторяющиеся блоки NN, которые могут запоминать значение в течение произвольного периода времени.

35
Как LSTM предотвращает проблему исчезающего градиента?

LSTM был изобретен специально, чтобы избежать проблемы исчезающего градиента. Предполагается, что это будет сделано с помощью карусели постоянных ошибок (CEC), которая на диаграмме ниже (от Греффа и др. ) Соответствует петле вокруг ячейки . (источник: deeplearning4j.org ) И я понимаю, что эту часть...

32
Понимание единиц LSTM против клеток

Я некоторое время изучал LSTM. Я понимаю на высоком уровне, как все работает. Однако, собираясь реализовать их с помощью Tensorflow, я заметил, что BasicLSTMCell требует параметра количества единиц (то есть num_units). Из этого очень подробного объяснения LSTM я понял, что один блок LSTM является...

26
Потеря обучения идет вниз и снова. Что происходит?

Моя потеря тренировки снижается, а затем снова растет. Это очень странно. Потеря перекрестной проверки отслеживает потерю обучения. Что происходит? У меня есть два сложенных LSTMS следующим образом (на Keras): model = Sequential() model.add(LSTM(512, return_sequences=True, input_shape=(len(X[0]),...

25
Каковы преимущества стекирования нескольких LSTM?

Каковы преимущества, почему можно использовать несколько LSTM, расположенных рядом друг с другом, в глубокой сети? Я использую LSTM для представления последовательности входов в качестве одного входа. Итак, если у меня есть это единственное представление - зачем мне его снова проходить? Я спрашиваю...

23
Какие именно механизмы внимания?

Механизмы внимания использовались в различных документах глубокого обучения в последние несколько лет. Илья Суцкевер, руководитель исследовательского отдела Open AI, с энтузиазмом похвалил их: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 Эудженио Кулурчелло из Университета...

20
Понимание параметра input_shape в LSTM с помощью Keras

Я пытаюсь использовать пример, описанный в документации Keras, под названием «Stacked LSTM для классификации последовательностей» (см. Код ниже) и не могу определить input_shapeпараметр в контексте моих данных. В качестве входных данных у меня есть матрица последовательностей из 25 возможных...

20
Какие методы оптимизации лучше всего подходят для LSTM?

Я использовал theano для экспериментов с LSTM, и мне было интересно, какие методы оптимизации (SGD, Adagrad, Adadelta, RMSprop, Adam и т. Д.) Лучше всего подходят для LSTM? Есть ли исследовательские работы на эту тему? Кроме того, зависит ли ответ от типа приложения, для которого я использую LSTM?...

20
Разница между обратной связью RNN и LSTM / GRU

Я пытаюсь понять различные архитектуры рекуррентных нейронных сетей (RNN), которые должны применяться к данным временных рядов, и меня немного путают с разными именами, которые часто используются при описании RNN. Является ли структура долгосрочной кратковременной памяти (LSTM) и Gated Recurrent...

20
Почему вес сетей RNN / LSTM распределен по времени?

Недавно я заинтересовался LSTM и с удивлением узнал, что веса распределяются по времени. Я знаю, что если вы разделяете веса по времени, то ваши входные временные последовательности могут иметь переменную длину. С общими весами у вас гораздо меньше параметров для тренировки. Насколько я понимаю,...

19
Использование RNN (LSTM) для прогнозирования векторов временных рядов (Theano)

У меня очень простая проблема, но я не могу найти правильный инструмент для ее решения. У меня есть некоторая последовательность векторов одинаковой длины. Теперь я хотел бы обучить LSTM RNN на выборке из этих последовательностей, а затем сделать это для предсказания новой последовательности...

17
Разница между образцами, временными шагами и особенностями в нейронной сети

Я просматриваю следующий блог по нейронной сети LSTM: http://machinelearningmastery.com/understanding-stateful-lstm-recurrent-neural-networks-python-keras/ Автор изменяет входной вектор X как [выборки, временные шаги, особенности] для различной конфигурации LSTM. Автор пишет Действительно,...

15
RNN: Когда применять BPTT и / или обновлять веса?

Я пытаюсь понять применение RNN высокого уровня для маркировки последовательностей с помощью (среди прочего) статьи Грейвса 2005 года о классификации фонем. Чтобы подвести итог проблемы: у нас есть большой обучающий набор, состоящий из (входных) аудиофайлов отдельных предложений и (выходных)...

15
Какова допустимая длина последовательности для RNN для моделирования?

Я изучаю использование LSTM ( долговременной кратковременной памяти ) версии рекуррентной нейронной сети (RNN) для моделирования данных временных рядов. По мере увеличения длины последовательности данных сложность сети возрастает. Поэтому мне любопытно, какую длину последовательностей можно было бы...

13
Предотвращение перенастройки LSTM на небольшой набор данных

Я моделирую 15000 твитов для прогнозирования настроений, используя однослойный LSTM со 128 скрытыми единицами, используя word2vec-подобное представление с 80 измерениями. Я получаю точность снижения (38% со случайным = 20%) после 1 эпохи. Большее количество тренировок приводит к тому, что точность...

13
Как тренировать LSTM слой глубокой сети

Я использую lstm и сеть прямой связи для классификации текста. Я преобразую текст в горячие векторы и подаю каждый в lstm, чтобы суммировать его как единое представление. Затем я передаю его в другую сеть. Но как мне тренировать LSTM? Я просто хочу последовательно классифицировать текст - я должен...

13
Почему RNN с блоками LSTM также могут страдать от «взрывных градиентов»?

У меня есть базовые знания о том, как работают RNN (и, в частности, с блоками LSTM). У меня есть графическое представление об архитектуре модуля LSTM, то есть ячейки и нескольких шлюзов, которые регулируют поток значений. Однако, по-видимому, я не до конца понял, как LSTM решает проблему...

11
Обработка неизвестных слов в задачах моделирования языка с использованием LSTM

Для задачи обработки естественного языка (NLP) часто используют векторы word2vec в качестве вложения для слов. Тем не менее, может быть много неизвестных слов, которые не перехвачены векторами word2vec просто потому, что эти слова не видны достаточно часто в обучающих данных (многие реализации...

10
Структура рекуррентной нейронной сети (LSTM, ГРУ)

Я пытаюсь понять архитектуру RNN. Я нашел этот учебник, который был очень полезен: http://colah.github.io/posts/2015-08-Understanding-LSTMs/ Особенно это изображение: Как это вписывается в сеть прямой связи? Является ли это изображение просто еще одним узлом в каждом...

9
Лучшее использование LSTM для прогнозирования событий последовательности

Предположим следующую одномерную последовательность: A, B, C, Z, B, B, #, C, C, C, V, $, W, A, % ... Письма A, B, C, ..здесь представляют «обычные» события. #, $, %, ...Здесь символы обозначают «особые» события Временной интервал между всеми событиями является неоднородным (от секунд до дней), хотя...

9
Прогнозирование временных рядов с использованием ARIMA против LSTM

Проблема, с которой я имею дело, заключается в прогнозировании значений временных рядов. Я смотрю на один временной ряд за раз и на основе, например, 15% входных данных, я хотел бы предсказать его будущие значения. До сих пор я сталкивался с двумя моделями: LSTM (долговременная кратковременная...