В линейной регрессии, почему регуляризация штрафует также значения параметров?

9

В настоящее время я изучаю регрессию гребня, и меня немного смущает вопрос о наказании за более сложные модели (или определение более сложной модели).

Из того, что я понимаю, сложность модели не обязательно соотносится с полиномиальным порядком. Итак: - более сложная модель, чем:

2+3+4Икс2+5Икс3+6Икс4
5Икс5

И я знаю, что цель регуляризации состоит в том, чтобы поддерживать сложность модели на низком уровне, например, у нас есть полином 5-го порядка

е(Икс;вес)знак равновес0+вес1Икс+вес2Икс2+вес3Икс3+вес4Икс4+вес5Икс5

Чем больше параметров, тем лучше.

Но что я не понимаю, так это если полиномиал того же порядка, почему более низкие значения параметров штрафуются меньше? Так почему бы:

2+5Икс+Икс3
будет менее сложной моделью, чем

433+342Икс+323Икс3
они имеют одинаковый полиномиальный порядок, а значения параметров просто зависят от данных.

Спасибо!

Physco111
источник

Ответы:

10

значения параметров просто зависят от данных

Это ключевая часть вашего вопроса. Это где вы запутались.

Да, значения параметров зависят от данных. Но данные фиксируются, когда мы подгоняем модель. Другими словами, мы подходим к модели, обусловленной наблюдениями . Нет смысла сравнивать сложность разных моделей, которые были приспособлены к разным наборам данных .

И в контексте фиксированного набора данных, модель

2+5Икс+Икс3

действительно ближе к простейшей возможной модели, а именно модели плоского нуля, чем

433+342Икс+323Икс3,

и это справедливо независимо от масштаба ваших наблюдений.

Между прочим, пересечение ( и в вашем примере) часто не наказывается, например, в большинстве формулировок Лассо, потому что мы, как правило, хорошо позволяем ему свободно варьироваться для получения общего среднего значения наблюдений. Другими словами, мы сжимаем модель к среднему значению наблюдений, а не к полной модели с нулем (где ноль часто бывает произвольным). В этом смысле плоская модель и плоская модель будут считаться одинаково сложными.24332433

Стефан Коласса
источник
1
Коэффициенты с более низкой величиной находятся дальше от плоского нуля, чем более высокие коэффициенты? Является ли это опечаткой, или я неправильно понимаю, почему модель «дальше от константы» не наказывается так же сильно, как модель «ближе к константе»?
RM
Извините, это действительно была опечатка. Позвольте мне отредактировать. Спасибо за указание на это!
Стефан Коласса