Выпадение на каких слоях LSTM?

11

LSTMРекомендуется ли использовать многослойный режим с выпадающим списком для всех скрытых слоев, а также для выходных плотных слоев? В статье Хинтона (в которой предлагалось Dropout) он помещал Dropout только на плотные слои, но это было потому, что скрытые внутренние слои были сверточными.

Очевидно, я могу проверить свою конкретную модель, но мне было интересно, был ли достигнут консенсус по этому вопросу?

BigBadMe
источник
3
Если вам интересно , обсудите отсев в повторяющихся сетях в этом документе: arxiv.org/abs/1512.05287 Гал, Ярин и Зубин Гахрамани. «Теоретически обоснованное применение отсева в повторяющихся нейронных сетях». Достижения в нейронных системах обработки информации. 2016.
Redhqs
2
Кажется, чтобы подтвердить то, что @Media сказал ниже
BigBadMe

Ответы:

12

Я предпочитаю не добавлять отсев в LSTMклетках по одной конкретной и понятной причине. LSTMsхороши для длительных сроков, но важно то, что они не очень хорошо запоминают несколько вещей одновременно. Логика исключения заключается в добавлении шума к нейронам, чтобы не зависеть от какого-либо конкретного нейрона. Добавляя выпадение для LSTMячеек, вы можете забыть что-то, что не должно быть забыто. Следовательно, как CNNsя всегда предпочитаю использовать выпадать в плотных слоях после LSTMслоев.

СМИ
источник
1
Я понимаю, что вы говорите, и это имеет смысл, но тогда, почему реализация ячеек LSTM в Keras или Tensorflow предоставляет возможность указать выпадение (и повторное выпадение), если это, по сути, подорвет, как предполагается, что LSTM функция?
BigBadMe
3
При CNNsэтом вполне допустимо не использовать их в сверточных слоях из-за малого количества весов в сверточных слоях. С LSTMsдругой стороны, количество весов не мало. Как я уже упоминал в заданиях, что есть множество вещей, которые необходимо запомнить, я стараюсь не использовать отсев, но в таких случаях, как время глаголов, у вас не так много зависимостей, я думаю, это не очень плохо. Кстати, это был мой опыт. Могут быть другие ответы для разных областей применения.
СМИ
1
Великое объяснение обоими ответами! (+ 1)
Адитья,
5

Не существует консенсуса, который можно было бы подтвердить по всем типам моделей.

Думая об отсеве как о форме регуляризации, о том, сколько ее применять (и где), будет по сути зависеть от типа и размера набора данных, а также от сложности вашей построенной модели (насколько она велика).

n1k31t4
источник