Как смещение должно быть инициализировано и упорядочено?

13

Я прочитал пару статей об инициализации ядра, и многие из них упоминают, что они используют L2-регуляризацию ядра (часто с ).λ=0.0001

Кто-нибудь делает что-то иное, чем инициализация смещения с постоянным нулем и не регуляризация?

Документы инициализации ядра

Мартин Тома
источник

Ответы:

15

Из заметок Stanford CS231N ( http://cs231n.github.io/neural-networks-2/ ):

Инициализация уклонов. Можно и обычно инициализировать смещения равными нулю, поскольку нарушение асимметрии обеспечивается небольшими случайными числами в весах. Для нелинейностей ReLU некоторым людям нравится использовать небольшое постоянное значение, такое как 0,01, для всех смещений, потому что это гарантирует, что все блоки ReLU срабатывают в начале и, следовательно, получают и распространяют некоторый градиент. Однако неясно, обеспечивает ли это последовательное улучшение (фактически, некоторые результаты указывают на то, что это работает хуже), и более распространенным является просто использование инициализации с нулевым смещением.

В LSTM обычно инициализируют смещения в 1 - см., Например, http://www.jmlr.org/proceedings/papers/v37/jozefowicz15.pdf .

Лукас Бевальд
источник