В линейной регрессии, почему регуляризация штрафует также значения параметров?

В настоящее время я изучаю регрессию гребня, и меня немного смущает вопрос о наказании за более сложные модели (или определение более сложной модели).

Из того, что я понимаю, сложность модели не обязательно соотносится с полиномиальным порядком. Итак: - более сложная модель, чем:

2 + 3 + 4 {Икс}^{2} + 5 {Икс}^{3} + 6 {Икс}^{4}

$2 + 3+ 4x^2 + 5x^3 + 6x^4$

5 {Икс}^{5}

$5x^5$

И я знаю, что цель регуляризации состоит в том, чтобы поддерживать сложность модели на низком уровне, например, у нас есть полином 5-го порядка

е (Икс; вес) знак равно {вес}_{0} + {вес}_{1} Икс + {вес}_{2} {Икс}^{2} + {вес}_{3} {Икс}^{3} + {вес}_{4} {Икс}^{4} + {вес}_{5} {Икс}^{5}

$f(x; w) = w_0 + w_1x + w_2x^2 + w_3x^3 + w_4x^4 + w_5x^5$

Чем больше параметров, тем лучше.

Но что я не понимаю, так это если полиномиал того же порядка, почему более низкие значения параметров штрафуются меньше? Так почему бы:

2 + 5 Икс + {Икс}^{3}

$2 + 5x + x^3$ будет менее сложной моделью, чем

433 + 342 Икс + 323 {Икс}^{3}

$433+ 342x + 323x^3$ они имеют одинаковый полиномиальный порядок, а значения параметров просто зависят от данных.

Спасибо!

regression regularization hyperparameter Physco111
источник

Ответы:

значения параметров просто зависят от данных

Это ключевая часть вашего вопроса. Это где вы запутались.

Да, значения параметров зависят от данных. Но данные фиксируются, когда мы подгоняем модель. Другими словами, мы подходим к модели, обусловленной наблюдениями . Нет смысла сравнивать сложность разных моделей, которые были приспособлены к разным наборам данных .

И в контексте фиксированного набора данных, модель

2 + 5 Икс + {Икс}^{3}

$2 + 5x + x^3$

действительно ближе к простейшей возможной модели, а именно модели плоского нуля, чем

433 + 342 Икс + 323 {Икс}^{3},

$433+ 342x + 323x^3,$

и это справедливо независимо от масштаба ваших наблюдений.

Между прочим, пересечение ( и в вашем примере) часто не наказывается, например, в большинстве формулировок Лассо, потому что мы, как правило, хорошо позволяем ему свободно варьироваться для получения общего среднего значения наблюдений. Другими словами, мы сжимаем модель к среднему значению наблюдений, а не к полной модели с нулем (где ноль часто бывает произвольным). В этом смысле плоская модель и плоская модель будут считаться одинаково сложными. $2$ $433$ $2$ $433$

Стефан Коласса
источник

Коэффициенты с более низкой величиной находятся дальше от плоского нуля, чем более высокие коэффициенты? Является ли это опечаткой, или я неправильно понимаю, почему модель «дальше от константы» не наказывается так же сильно, как модель «ближе к константе»?

Извините, это действительно была опечатка. Позвольте мне отредактировать. Спасибо за указание на это!

Стефан Коласса