Хребет & ЛАССО норм

12

Этот пост следует за этим: Почему оценка гребня становится лучше, чем OLS, добавляя константу к диагонали?

Вот мой вопрос:

Насколько я знаю, в регуляризации хребта используется (евклидово расстояние). Но почему мы используем квадрат этой нормы? (прямое применение приведет к получению квадратного корня от суммы квадрата бета).222

Для сравнения, мы не делаем этого для LASSO, который использует для регуляризации. Но здесь это «реальная» норма (просто сумма квадрата абсолютных значений бета, а не квадрат этой суммы).111

Может кто-нибудь помочь мне уточнить?

Plotz
источник
2
Термин штраф в регрессии гребня является квадратом нормы L2. Смотрите эти слайды , написанные Tibshirani в качестве примера (слайд 7) stat.cmu.edu/~ryantibs/datamining/lectures/16-modr1.pdf Смотрите также здесь en.wikipedia.org/wiki/Tikhonov_regularization
Boscovich
Небольшое уточнение, это слайды от Райана Тибширани, а не Роба.
Эллис Валентинер
хорошо, большое спасибо за разъяснения. Но я не понимаю, почему квадрат для L2, а не для L1. Разве у нас нет общих формул для любого вида регуляризации?
PLOTZ
@ user12202013: спасибо, что указали на это. Я этого не заметил.
Boscovich

Ответы:

9

Ридж и Лассо - два способа регуляризации и регрессии. Лассо регрессия накладывает ограничение на сумму абсолютных коэффициентов:

iβi2=||β||1

Хребетная регрессия накладывает ограничение на сумму квадратов разностей:

iβi2=iβi22=||βi||22

Вы предложили ввести еще одну норму, евклидову длину коэффициентов:

iβi2=||βi||2

Разница между регрессией Риджа и евклидовой длиной составляет квадрат. Это меняет интерпретацию регуляризации. В то время как как гребень, так и евклидова длина регуляризуются в направлении нуля, регрессия гребня также отличается величиной регуляризации. Коэффициенты, которые находятся дальше от нуля, сильнее притягиваются к нулю. Это делает его более стабильным около нуля, потому что регуляризация постепенно меняется около нуля. Это не относится к евклидовой длине или к регрессии Лассо.

Pieter
источник
7

Есть много штрафных подходов, которые теперь имеют все виды различных штрафных функций (ридж, лассо, MCP, SCAD). Вопрос о том, почему одна из конкретных форм заключается в основном «какие преимущества / недостатки дает такое наказание?».

Интересующие свойства могут быть:

1) почти непредвзятые оценщики (обратите внимание, что все штрафованные оценщики будут смещены)

2) Разреженность (обратите внимание, что регрессия гребня не дает разреженных результатов, т.е. она не уменьшает коэффициенты до нуля)

3) Непрерывность (чтобы избежать нестабильности в прогнозировании модели)

Это всего лишь несколько свойств, которые могут быть заинтересованы в штрафной функции.

||β||22=|βi|2||β||1=|βi|(|βi|2)(|βi|)2

bdeonovic
источник
хорошо спасибо. Но почему квадрат для L2, а не для L1? Разве у нас нет общих формул для любого вида регуляризации? Это меня озадачивает ...
PLOTZ
@PLOTZ Я немного добавил к своему ответу.
bdeonovic
Большое спасибо, Бенджамин! Наверняка теперь стало понятнее! Я не получил эту теоретическую цель до вашего ответа. Большое спасибо за ваш ответ.
PLOTZ
@ Бенджамин: в пункте № 1 вы действительно имели в виду «( не все оштрафованные оценщики будут объективными)»? Хребет регрессии - просто чтобы назвать один - является предвзятым.
Boscovich
упс, да, спасибо, что поймали это! Я думаю, что на самом деле все оштрафованные оценщики будут предвзятыми.
bdeonovic
5

21βppp>0

Затем регрессия Риджа использует , а Lasso но можно использовать другие значения .p=2p=1p

Например, у вас есть разреженное решение для всех значений , и чем меньше значение тем разреженное решение.p1p

Для значений ваша цель не является более гладкой, поэтому оптимизация усложняется; при цель невыпуклая, поэтому оптимизация еще сложнее ...p1p<1

Тонио Боннеф
источник
2

Я полагаю, что здесь есть еще более простой ответ, хотя на вопросы «почему» всегда трудно ответить, когда разрабатывается методика. Квадрат нормы используется так, чтобы член регуляризации был легко дифференцируемым. Хребетная регрессия минимизирует:l2

yXβ22+λβ22

Также можно написать:

yXβ22+λβTβ

Теперь это можно легко дифференцировать по отношению к чтобы получить решение в закрытой форме:β

β^ridge=(XTX+λI)1XTy

из которого можно сделать все виды выводов.

Тим Атрейдес
источник
1

Рассмотрим еще одно важное различие между использованием квадрата нормы (т.е. регрессии гребня) и неизмененной нормы : производная от нормы для , , в определяется как и, следовательно, не дифференцируемо в нулевом векторе. То есть, хотя норма не делает выбор отдельных переменных, таких как лассо, теоретически она может дать в качестве решения для максимальной наказуемой вероятности. квадрат222x||x||2x2β=02x||x||22β=02 норма в штрафе, штраф типа гребня везде дифференцируем и никогда не может привести к такому решению.

Это поведение именно (по моему пониманию), почему группа лассо (Юань и Лин) и разреженная группа лассо (Саймон и др.) И т. Д. норму (на заранее подмножествах коэффициентов) вместо квадрата из нормы.222

psboonstra
источник