Этот пост следует за этим: Почему оценка гребня становится лучше, чем OLS, добавляя константу к диагонали?
Вот мой вопрос:
Насколько я знаю, в регуляризации хребта используется (евклидово расстояние). Но почему мы используем квадрат этой нормы? (прямое применение приведет к получению квадратного корня от суммы квадрата бета).ℓ 2
Для сравнения, мы не делаем этого для LASSO, который использует для регуляризации. Но здесь это «реальная» норма (просто сумма квадрата абсолютных значений бета, а не квадрат этой суммы).ℓ 1
Может кто-нибудь помочь мне уточнить?
Ответы:
Ридж и Лассо - два способа регуляризации и регрессии. Лассо регрессия накладывает ограничение на сумму абсолютных коэффициентов:
Хребетная регрессия накладывает ограничение на сумму квадратов разностей:
Вы предложили ввести еще одну норму, евклидову длину коэффициентов:
Разница между регрессией Риджа и евклидовой длиной составляет квадрат. Это меняет интерпретацию регуляризации. В то время как как гребень, так и евклидова длина регуляризуются в направлении нуля, регрессия гребня также отличается величиной регуляризации. Коэффициенты, которые находятся дальше от нуля, сильнее притягиваются к нулю. Это делает его более стабильным около нуля, потому что регуляризация постепенно меняется около нуля. Это не относится к евклидовой длине или к регрессии Лассо.
источник
Есть много штрафных подходов, которые теперь имеют все виды различных штрафных функций (ридж, лассо, MCP, SCAD). Вопрос о том, почему одна из конкретных форм заключается в основном «какие преимущества / недостатки дает такое наказание?».
Интересующие свойства могут быть:
1) почти непредвзятые оценщики (обратите внимание, что все штрафованные оценщики будут смещены)
2) Разреженность (обратите внимание, что регрессия гребня не дает разреженных результатов, т.е. она не уменьшает коэффициенты до нуля)
3) Непрерывность (чтобы избежать нестабильности в прогнозировании модели)
Это всего лишь несколько свойств, которые могут быть заинтересованы в штрафной функции.
источник
Затем регрессия Риджа использует , а Lasso но можно использовать другие значения .p=2 p=1 p
Например, у вас есть разреженное решение для всех значений , и чем меньше значение тем разреженное решение.p≤1 p
Для значений ваша цель не является более гладкой, поэтому оптимизация усложняется; при цель невыпуклая, поэтому оптимизация еще сложнее ...p≤1 p<1
источник
Я полагаю, что здесь есть еще более простой ответ, хотя на вопросы «почему» всегда трудно ответить, когда разрабатывается методика. Квадрат нормы используется так, чтобы член регуляризации был легко дифференцируемым. Хребетная регрессия минимизирует:l2
Также можно написать:
Теперь это можно легко дифференцировать по отношению к чтобы получить решение в закрытой форме:β
из которого можно сделать все виды выводов.
источник
Рассмотрим еще одно важное различие между использованием квадрата нормы (т.е. регрессии гребня) и неизмененной нормы : производная от нормы для , , в определяется как и, следовательно, не дифференцируемо в нулевом векторе. То есть, хотя норма не делает выбор отдельных переменных, таких как лассо, теоретически она может дать в качестве решения для максимальной наказуемой вероятности. квадратℓ2 ℓ2 ℓ2 x ||x||2 x ℓ2β=0ℓ2x||x||2 ℓ2 β=0 ℓ2 норма в штрафе, штраф типа гребня везде дифференцируем и никогда не может привести к такому решению.
Это поведение именно (по моему пониманию), почему группа лассо (Юань и Лин) и разреженная группа лассо (Саймон и др.) И т. Д. норму (на заранее подмножествах коэффициентов) вместо квадрата из нормы.ℓ 2ℓ2 ℓ2
источник