LSTM
Рекомендуется ли использовать многослойный режим с выпадающим списком для всех скрытых слоев, а также для выходных плотных слоев? В статье Хинтона (в которой предлагалось Dropout) он помещал Dropout только на плотные слои, но это было потому, что скрытые внутренние слои были сверточными.
Очевидно, я могу проверить свою конкретную модель, но мне было интересно, был ли достигнут консенсус по этому вопросу?
neural-network
lstm
rnn
dropout
stacked-lstm
BigBadMe
источник
источник
Ответы:
Я предпочитаю не добавлять отсев в
LSTM
клетках по одной конкретной и понятной причине.LSTMs
хороши для длительных сроков, но важно то, что они не очень хорошо запоминают несколько вещей одновременно. Логика исключения заключается в добавлении шума к нейронам, чтобы не зависеть от какого-либо конкретного нейрона. Добавляя выпадение дляLSTM
ячеек, вы можете забыть что-то, что не должно быть забыто. Следовательно, какCNNs
я всегда предпочитаю использовать выпадать в плотных слоях послеLSTM
слоев.источник
CNNs
этом вполне допустимо не использовать их в сверточных слоях из-за малого количества весов в сверточных слоях. СLSTMs
другой стороны, количество весов не мало. Как я уже упоминал в заданиях, что есть множество вещей, которые необходимо запомнить, я стараюсь не использовать отсев, но в таких случаях, как время глаголов, у вас не так много зависимостей, я думаю, это не очень плохо. Кстати, это был мой опыт. Могут быть другие ответы для разных областей применения.Не существует консенсуса, который можно было бы подтвердить по всем типам моделей.
Думая об отсеве как о форме регуляризации, о том, сколько ее применять (и где), будет по сути зависеть от типа и размера набора данных, а также от сложности вашей построенной модели (насколько она велика).
источник