Геометрическая интерпретация штрафной линейной регрессии

26

Я знаю, что линейная регрессия может рассматриваться как «линия, которая расположена ближе всего ко всем точкам» :

введите описание изображения здесь

Но есть и другой способ увидеть это, визуализируя пространство столбцов как «проекцию на пространство, охватываемое столбцами матрицы коэффициентов» :

введите описание изображения здесь

Мой вопрос: в этих двух интерпретациях, что происходит, когда мы используем штрафованную линейную регрессию, такую ​​как регрессия гребня и LASSO ? Что происходит со строкой в ​​первой интерпретации? А что происходит с проекцией во второй интерпретации?

ОБНОВЛЕНИЕ: @JohnSmith в комментариях поднял тот факт, что штраф происходит в пространстве коэффициентов. Есть ли толкование и в этом пространстве?

Лукас Рейс
источник
1
Я не уверен, что такую ​​интерпретацию можно придумать. Просто потому, что вы предоставили изображения в оригинальном пространстве функций и ответов. И штрафная регрессия включает в себя пространство коэффициентов, которое очень отличается.
Дмитрий Лаптев
«Линия по вертикали ближайшая ко всем точкам»? Каждый обычно берет сумму квадратов - смотрите красивую картинку в Википедии Coefficient_of_determination . Сумма вертикальных расстояний является нормой L1, которая менее чувствительна к выбросам, но гораздо менее распространена.
Денис

Ответы:

21

Извините за мои навыки рисования, я постараюсь дать вам следующую интуицию.

Пусть будет целевой функцией (например, MSE в случае регрессии). Давайте представим контурный контур этой функции красным цветом (разумеется, мы рисуем ее в пространстве , здесь для простоты и ).f(β)ββ1β2

В середине красных кружков есть минимум этой функции. И этот минимум дает нам не наказуемое решение.

Теперь добавим другую цель контур которой показан синим цветом. Либо регуляризатор LASSO, либо регуляризатор ребристой регрессии. Для LASSO , для регрессии гребня ( - штраф параметр). Графики контура показывают область, в которой функция имеет фиксированные значения. Таким образом, чем больше - тем быстрее рост , и тем более «узким» будет контурный график.g(β)g(β)=λ(|β1|+|β2|)g(β)=λ(β12+β22)λλg(x)

Теперь мы должны найти минимум суммы этих двух целей: . И это достигается, когда два контурных участка встречаются друг с другом.f(β)+g(β)

LASSO и Ridge регрессия

Чем больше штраф, тем «более узкие» синие контуры мы получаем, и тогда графики встречаются друг с другом в точке ближе к нулю. Наоборот, чем меньше штраф, тем больше расширяются контуры, и пересечение синих и красных графиков приближается к центру красного круга (решение без штрафа).

А теперь следует интересная вещь, которая сильно объясняет мне разницу между регрессией гребня и LASSO: в случае LASSO два контурных графика, вероятно, встретятся там, где угол регуляризатора равен ( или ). В случае регрессии гребня это почти никогда не происходит.β1=0β2=0

Вот почему LASSO дает нам разреженное решение, делая некоторые параметры точно равными .0

Надеюсь, что это объяснит некоторую интуицию о том, как штрафная регрессия работает в пространстве параметров.

Дмитрий Лаптев
источник
Я думаю, что начинать с классической картины, как вы уже сделали, - хорошее начало. Чтобы действительно понять это, я думаю, что было бы полезно описать, как контуры связаны с проблемой. В частности, в обоих случаях мы знаем, что чем меньше мы налагаем штраф, тем ближе мы подходим к решению OLS и чем больше оно становится, тем ближе к модели чистого перехвата мы получим. Один вопрос, который нужно задать: как это проявляется в вашей фигуре?
кардинал
Кстати, твои навыки рисования кажутся просто отличными.
кардинал
Спасибо за ваш комментарий! Здесь все интуитивно просто: чем больше штраф, тем «более узкие» синие контуры мы получаем (и затем точка, на которой встречаются два графика, приближается к нулю). Наоборот, чем меньше штраф: тем ближе к центру красного круга будут встречаться графики (OLS).
Дмитрий Лаптев
2
Я обновил ответ, ввел более точное обозначение: для синих графиков, для параметра штрафных санкций. Это лучше объясняет вашу озабоченность? g(x)λ
Дмитрий Лаптев
1
Спасибо за наглядную иллюстрацию. Я читал в другом месте, что минимальная сумма целей происходит там, где они касаются друг друга. Я понимаю, что если f (\ beta) '= -g (\ beta)', это будет означать, что производная суммы равна нулю, что является требованием для экстремума. Это то, что подразумевается здесь под «когда два контурных участка встречаются друг с другом»?
Одедбд
3

У меня есть следующая интуиция: в случае наименьших квадратов матрица шляпы является ортогональной проекцией, т.е. идемпотентной. В оштрафованном случае шляпная матрица больше не идемпотентна. На самом деле, применяя его бесконечно много раз, вы сократите коэффициенты до начала координат. С другой стороны, коэффициенты все еще должны лежать в пределах предикторов, поэтому это все еще проекция, хотя и не ортогональная. Величина штрафного фактора и тип нормы определяют расстояние и направление усадки в направлении начала координат.

JohnRos
источник
1
Я не понимаю, почему он не идемпотентен: если я проецирую вектор в пространстве (даже если это не ортогональная проекция), и я накладываю ограничение на коэффициенты, почему новая проекция этого проецируемого вектора будет отличаться от предыдущей один?
Лукас Рейс
1
Интуитивно понятно: скажем, вы минимизируете штрафную сумму квадратов во второй раз. Сумма квадратов при второй минимизации меньше суммы квадратов при первой минимизации. Относительная важность нормы штрафованных коэффициентов будет возрастать, т. Е. Еще больше можно получить, сократив коэффициенты еще больше. Регрессия хребта - хороший пример, в котором у вас есть хорошая закрытая форма для матрицы шляп, и вы можете напрямую проверить, является ли она идемпотентной.
JohnRos