Для линейной модели сжимающий член всегда равен .
В чем причина того, что мы не уменьшаем смещение (перехват) члена ? Должны ли мы сократить срок смещения в моделях нейронных сетей?
Для линейной модели сжимающий член всегда равен .
В чем причина того, что мы не уменьшаем смещение (перехват) члена ? Должны ли мы сократить срок смещения в моделях нейронных сетей?
Ответы:
Элементы статистического обучения Hastie et al. определяет гребень регрессии следующим образом (раздел 3.4.1, уравнение
Затем они пишут:
В самом деле, при наличии члена перехвата, добавление ко всем y i просто приведет кc yi увеличивается на C , а также исоответственновсе предсказанных значений у я также увеличится на с . Это неверно, если перехват оштрафован: β 0 должен будет увеличиться менее чем на c .β0 c y^i c β0 c
На самом деле, есть несколько приятных и удобных свойств линейной регрессии, которые зависят от наличия правильного (непенализованного) члена-перехвата. Например , среднее значение и среднего значения у я равны, и , следовательно , () квадрат множественного коэффициента корреляции R равен коэффициенту определения R 2 : ( R ) 2 = соз 2 ( у , у ) = | | у | | 2yi y^i R R2 см., Например, эту ветку для объяснения:геометрическая интерпретация коэффициента множественной корреляцииRи коэффициента детерминацииR2.
Наказание за перехват приведет к тому, что все это больше не будет правдой.
источник
Вспомните цель усадки или регуляризации. Это делается для того, чтобы алгоритм обучения не соответствовал учебным данным или, что эквивалентно, не позволяет выбирать произвольно большие значения параметров. Это более вероятно для наборов данных с более чем несколькими примерами обучения при наличии шума (очень интересная дискуссия о наличии шума и его влиянии обсуждается в «Изучение данных» Ясера Абу-Мустафы). Модель, изученная на зашумленных данных без регуляризации, вероятно, будет плохо работать в некоторых невидимых точках данных.
Имея это в виду, представьте, что у вас есть точки 2D данных, которые вы хотите классифицировать по двум классам. Если фиксировать все параметры, кроме смещения, то изменение члена смещения просто сместит границу вверх или вниз. Вы можете обобщить это в пространство более высокого измерения.
Алгоритм обучения не может устанавливать произвольно большие значения для термина смещения, поскольку это может привести к значению валовых потерь (модель не будет соответствовать обучающим данным). Другими словами, учитывая некоторый тренировочный набор, вы (или алгоритм обучения) не можете произвольно отодвинуть плоскость от истинной.
Таким образом, нет причин для сокращения термина смещения, алгоритм обучения найдет хороший без риска переоснащения.
Последнее замечание: я видел в некоторых работах, что при работе в многомерных пространствах для классификации нет строгой необходимости моделировать термин смещения. Это может работать для линейно разделяемых данных, поскольку при добавлении большего количества измерений появляется больше возможностей для разделения двух классов.
источник
Термин перехвата абсолютно не застрахован от усадки. Общая формулировка «усадка» (т.е. регуляризация) помещает термин регуляризации в функцию потерь, например:
Теперь я не могу говорить о регуляризации для нейронных сетей. Вполне возможно, что для нейронных сетей вы хотите избежать сокращения термина смещения или иначе спроектировать функцию регуляризованных потерь в отличие от формулировки, которую я описал выше. Я просто не знаю. Но я сильно подозреваю, что веса и условия смещения упорядочены вместе.
источник
Я не уверен, что приведенный выше ответ Дэвида Маркса является совершенно правильным; согласно Эндрю Нг, условно коэффициент смещения / перехвата обычно не регуляризован в линейной регрессии, и в любом случае, регуляризован он или нет, не имеет существенного значения.
источник
Я дам самое простое объяснение, а затем расширю.
Эта модель не такая сексуальная, как оригинальная, на самом деле она довольно глупая. Тем не менее, это законная модель. Например, вы можете запустить ANOVA.
источник