Согласно этому руководству по глубокому обучению , снижение веса (регуляризация) обычно не применяется к терминам смещения b, почему?
Какое значение (интуиция) стоит за этим?
Согласно этому руководству по глубокому обучению , снижение веса (регуляризация) обычно не применяется к терминам смещения b, почему?
Какое значение (интуиция) стоит за этим?
Ответы:
Перенастройка обычно требует, чтобы выходные данные модели были чувствительны к небольшим изменениям во входных данных (т. Е. Для точной интерполяции целевых значений вам требуется большая кривизна в подобранной функции). Параметры смещения не влияют на кривизну модели, поэтому, как правило, нет смысла их регуляризировать.
источник
Мотивация за L2 (или L1) заключается в том, что, ограничивая веса, ограничивая сеть, вы с меньшей вероятностью перегоните. Не имеет смысла ограничивать вес смещений, поскольку смещения фиксированы (например, b = 1), таким образом, работают как перехватчики нейронов, что имеет смысл, чтобы получить большую гибкость.
источник
Я хотел бы добавить, что термин смещения часто инициализируется средним значением,
1
а не значением0
, поэтому мы могли бы захотеть упорядочить его таким образом, чтобы не слишком сильно отклоняться от постоянного значения,1
такого как «делать,1/2*(bias-1)^2
а не»1/2*(bias)^2
.Может быть, это
-1
поможет замена части вычитанием из среднего значения смещений, может быть, среднее значение для каждого слоя или общее. Все же это - только гипотеза, которую я делаю (о среднем вычитании).Это все также зависит от функции активации. Например: сигмоиды могут быть плохими для исчезающих градиентов, если смещения регулируются до высоких постоянных смещений.
источник
В учебном пособии говорится, что «применение снижения веса к единицам смещения обычно незначительно влияет на конечную сеть», поэтому, если это не поможет, тогда вы можете прекратить делать это для устранения одного гиперпараметра. Если вы думаете, что регуляризация смещения поможет в вашей настройке, тогда перекрестная проверка его; в попытках нет вреда.
источник