Основное различие между ГРУ и LSTM является то , что ГРУ имеет два ворот ( сброс и обновление Gates) в то время как LSTM имеет три ворота (а именно вход , выход и забыть ворота).
Почему мы используем GRU, когда мы четко контролируем сеть через модель LSTM (так как у нас три шлюза)? В каком сценарии ГРУ предпочтительнее LSTM?
neural-network
deep-learning
Саяли Сонаване
источник
источник
Ответы:
GRU относится к LSTM, так как оба используют разные способы для сбора информации, чтобы предотвратить исчезновение проблемы градиента. Вот некоторые моменты о ГРУ против LSTM-
Подробное описание вы можете найти в этой исследовательской работе - Arxiv.org . В статье все это блестяще объясняется.
Кроме того, вы можете также изучить эти блоги для лучшей идеи-
Надеюсь, это поможет!
источник
* Чтобы дополнить уже большие ответы выше.
Исходя из моего опыта, GRU обучаются быстрее и работают лучше, чем LSTM, с меньшим количеством обучающих данных, если вы занимаетесь языковым моделированием (не уверены в других задачах).
GRU проще и, следовательно, их легче модифицировать, например, добавляя новые ворота в случае дополнительного ввода в сеть. Это просто меньше кода в целом.
LSTM должны теоретически запоминать более длинные последовательности, чем GRU, и превосходить их в задачах, требующих моделирования отношений на расстоянии.
* Некоторые дополнительные документы, которые анализируют ГРУ и LSTM.
«Алгоритмы обучения нейронных графических процессоров» (Лукаш Кайзер, Илья Суцкевер, 2015) https://arxiv.org/abs/1511.08228
«Сравнительное исследование CNN и RNN для обработки естественного языка» (Wenpeng Yin et al. 2017) https://arxiv.org/abs/1702.01923
источник
Этот ответ на самом деле лежит на наборе данных и сценарии использования. Трудно сказать однозначно, что лучше.
источник
FULL GRU Unit
Блок LSTM
Как видно из уравнений, LSTM имеют отдельный шлюз обновления и шлюз забывания. Это явно делает LSTM более сложными, но в то же время более сложными. Нет простого способа решить, какой использовать для вашего конкретного случая использования. Вы всегда должны делать проб и ошибок, чтобы проверить производительность. Однако, поскольку GRU проще, чем LSTM, для обучения GRU потребуется гораздо меньше времени, и он более эффективен.
Кредиты: Андрей Нг
источник
GRU лучше, чем LSTM, так как его легко модифицировать, и ему не нужны блоки памяти, поэтому он быстрее обучается, чем LSTM, и дает более высокую производительность.
источник
На самом деле, ключевое отличие оказывается не только в этом: долгосрочные (LSTM) персептроны создаются с использованием алгоритмов импульса и градиентного спуска. Когда вы примиряете персептроны LSTM с их рекурсивными аналогами RNN, вы получаете GRU, который на самом деле является просто обобщенной рекуррентной единицей или градиентной рекуррентной единицей (в зависимости от контекста), которая более тесно интегрирует алгоритмы импульса и градиентного спуска. Если бы я был вами, я бы провел больше исследований по AdamOptimizers.
Кстати, ГРУ - это устаревшее понятие. Тем не менее, я могу понять, что вы исследуете это, если вам нужны глубокие и глубокие знания TF.
источник