Что такое LSTM, BiLSTM и когда их использовать?

11

Я очень новичок в области глубокого обучения, и мне особенно интересно знать, что такое LSTM и BiLSTM и когда их использовать (основные области применения). Почему LSTM и BILSTM более популярны, чем RNN?

Можем ли мы использовать эти архитектуры глубокого обучения в неконтролируемых задачах?

Волька
источник
2
BiLSTM означает двунаправленный LSTM, что означает, что сигнал распространяется как назад, так и вперед во времени. Вы также можете применить эту архитектуру к другим RNN. Для получения дополнительной информации, пожалуйста, прочитайте en.wikipedia.org/wiki/Bidirectional_recurrent_neural_networks и colah.github.io/posts/2015-08-Understanding-LSTMs Добро пожаловать на сайт!
Эмре
Вот пост , разница между RNN и LSTM, и вот блог, демонстрирующий разницу между LSTM и двунаправленным LTSM
Беньямин Джафари

Ответы:

7

RNNТакие архитектуры, как LSTMи BiLSTMиспользуются в случаях, когда проблема обучения является последовательной, например, у вас есть видео, и вы хотите знать, о чем идет речь, или вы хотите, чтобы агент прочитал для вас строку документа, которая является изображением текста и не в текстовом формате. Я настоятельно рекомендую вам взглянуть на здесь .

LSTMsи их двунаправленные варианты популярны, потому что они пытались узнать, как и когда забывать, а когда не использовать ворота в своей архитектуре. В предыдущих RNNархитектурах исчезновение градиентов было большой проблемой и заставляло эти сети не учиться так много.

Используя Двунаправленный LSTMs, вы вводите в алгоритм обучения исходные данные один раз от начала до конца и один раз от конца до начала. Здесь есть дебаты, но обычно они учатся быстрее, чем однонаправленный подход, хотя это зависит от задачи.

Да, вы можете использовать их в обучении без учителя, в зависимости от вашей задачи. взгляните на здесь и здесь .

СМИ
источник
1
Большое спасибо за прекрасный ответ. Можем ли мы использовать lstm для извлечения ключевых слов в НЛП?
Волка
на самом деле о них много статей, например, вы можете посмотреть здесь и здесь .
СМИ
Большое спасибо. Мне просто интересно, есть ли в нашей компании подход к глубокому обучению для извлечения ключевых слов?
Волка
на самом деле я не видел, может быть, лучше спросить об этом :)
Media
4

Люди не начинают думать с нуля каждую секунду. Когда вы читаете это эссе, вы понимаете каждое слово на основе вашего понимания предыдущих слов. Вы не выбрасываете все и снова начинаете думать с нуля. Ваши мысли настойчивы.

Традиционные нейронные сети не могут этого сделать, и это кажется серьезным недостатком. Например, представьте, что вы хотите классифицировать, какое событие происходит в каждой точке фильма. Неясно, как традиционная нейронная сеть могла бы использовать свои рассуждения о предыдущих событиях в фильме для информирования более поздних.

Периодические нейронные сети решают эту проблему. Это сети с петлями в них, позволяющими сохранять информацию.

Для дальнейшего чтения этого перейдите в блог Коэна

Абхишек Шарма
источник
2

По сравнению с LSTM BLSTMили BiLSTMимеет две сети, одна pastинформация доступа в forwardнаправлении и другая доступ futureв reverseнаправлении. WIKI

Новый класс Bidirectionalдобавлен в соответствии с официальным документом здесь :

model = Sequential()
model.add(Bidirectional(LSTM(num_channels, 
        implementation = 2, recurrent_activation = 'sigmoid'),
        input_shape=(input_length, input_dim)))

Полный пример с использованием данных IMDB будет таким

ParthaSen
источник