Мостовой штраф против упругой регуляризации

22

Некоторые штрафные функции и аппроксимации хорошо изучены, такие как LASSO ( L1 ) и Ридж ( L2 ) и их сравнение в регрессии.

βjγγ=1γ=2

Вэньцзян [ 1 ] сравнил штраф Бриджа, когда с LASSO, но я не смог найти сравнение с регуляризацией Elastic Net, комбинацией штрафов LASSO и хребта, заданной как .λ 2β 2 + λ 1β 1γ1λ2β2+λ1β1

Это интересный вопрос, потому что Elastic Net и этот конкретный мост имеют схожие формы ограничений. Сравните эти единичные окружности, используя разные метрики ( - степень расстояния Минковского ):p

Единица окружности для разных степеней расстояния Минковского

p=1 соответствует LASSO, для хребта, а p = 1.4 для одного возможного моста. Эластичная сеть была сгенерирована с равным весом на штрафах L_1 и L_2 . Эти цифры полезны, например, для определения разреженности (которой явно не хватает Bridge, а Elastic Net сохраняет его от LASSO).р = 1,4p=2p=1.4L1L2

Так как же сопоставить Bridge с с Elastic Net в отношении регуляризации (кроме разреженности)? Я особенно заинтересован в контролируемом обучении, поэтому, возможно, уместно обсуждение выбора / взвешивания функций. Геометрическая аргументация также приветствуется.1<γ<2

Возможно, что еще важнее, всегда ли эластичная сеть более желательна в этом случае?


[1] Fu, WJ (1998). Наказанные регрессии: мост против лассо. Журнал вычислительной и графической статистики, 7 (3), 397-416.


РЕДАКТИРОВАТЬ: Есть этот вопрос Как решить, какую меру наказания использовать? любые общие рекомендации или правила большого пальца из учебника, в которых поверхностно упоминаются LASSO, Ridge, Bridge и Elastic Net, но нет попыток их сравнить.

поджигатель
источник
4
Только тангенциально связаны, но если штраф за норму является оценкой MAP байесовской регрессии с независимыми априорными числами Лапласа по коэффициентам, а L 2 является одинаковым для гауссовых априорных значений, мне интересно, эквивалентен ли штраф бриджа ранее Субботина. .. stats.stackexchange.com/questions/201038/…L1L2
Sycorax сообщает восстановить Monica
@RichardHardy Нет необходимости писать лассо во всех столицах, см. Мой комментарий здесь .
говорит амеба: восстанови монику
2
Имейте в виду, что регрессия Бриджа учитывает что дает невыпуклую регрессию. Это особенно полезно при попытке выбора групп ковариат, особенно из разреженных данных. Или вообще вы могли бы иметь заранее определенные группы ковариат, которые вы бы L 2 упорядочили так, чтобы ни одна конкретная группа не была большой, а затем L 1 упорядочили коэффициенты одной группы для достижения разреженности. Т.е. если вы напишите β = ( a 1 , , a k ) , где a i = ( β i 1 , βγ<1L2L1β=(a1,,ak)то вы можете сделатьλ1| |β| | γ я +λ2Σяя ν я . ai=(βi1,βi2,,,βir)λ1βγi+λ2iaiνi
Алекс Р.
@AlexR. Я должен на самом деле дать понять, что я имею в виду . Я не знал, что γ < 1 также называют Мостом. γ1γ<1
Firebug
1
@amoeba, хорошо, хорошо. Я обычно не редактирую, если использование заглавных букв постоянно в посте, но на этот раз были и «ЛАССО», и «Лассо», поэтому я просто выбрал «ЛАССО», который был первой формой в посте. Я всегда думаю об аббревиатуре, поэтому я использовал все столицы; но, как вы говорите, простое «лассо» может быть лучше.
Ричард Харди

Ответы:

20

Чем отличается регрессия моста и эластичная сеть - это интересный вопрос, учитывая их одинаковые штрафы. Вот один из возможных подходов. Предположим, мы решили проблему регрессии моста. Затем мы можем спросить, как будет отличаться решение с упругой сеткой. Глядя на градиенты двух функций потерь, можно сказать нам кое-что об этом.

Мост регрессии

Скажем, - это матрица, содержащая значения независимой переменной ( n точек x d измерений), y - вектор, содержащий значения зависимой переменной, а w - вектор весов.Xndyw

Функция потерь штрафует норму весов с величиной λ b :qλb

Lb(w)=yXw22+λbwqq

Градиент функции потерь:

wLb(w)=2XT(yXw)+λbq|w|(q1)sgn(w)

обозначает мощность Адамара (то есть поэлементно), которая дает вектор, чей i- й элемент равен v c i . sgn ( w ) - это функция знака (применяется к каждому элементу w ). Градиент может быть неопределенным в нуле для некоторых значений q .vcivicsgn(w)wq

Эластичная сетка

Функция потерь:

Le(w)=yXw22+λ1w1+λ2w22

Это оштрафовывает норму весов с величиной λ 1 и норму 2 с величиной λ 2 . Эластичная сетчатая бумага называет минимизацию этой функции потерь «наивной эластичной сеткой», потому что она вдвое уменьшает вес. Они описывают улучшенную процедуру, в которой весы позже масштабируются, чтобы компенсировать двойную усадку, но я просто собираюсь проанализировать наивную версию. Об этом следует помнить.1λ12λ2

Градиент функции потерь:

wLe(w)=2XT(yXw)+λ1sgn(w)+2λ2w

Градиент не определен в нуле, когда потому что абсолютное значение в штрафе 1 там не дифференцируемо.λ1>01

Подходить

Скажем, мы выбираем веса которые решают проблему регрессии моста. Это означает, что градиент регрессии моста равен нулю в этой точке:w

wLb(w)=2XT(yXw)+λbq|w|(q1)sgn(w)=0

Следовательно:

2XT(yXw)=λbq|w|(q1)sgn(w)

Мы можем подставить это в градиент упругой сети, чтобы получить выражение для градиента упругой сети при . К счастью, это больше не зависит напрямую от данных:w

wLe(w)=λ1sgn(w)+2λ2wλbq|w|(q1)sgn(w)

Глядя на градиент эластичной сетки в точке мы можем сказать: учитывая, что регрессия моста сходится к весам w , как эластичная сеть хочет изменить эти веса?ww

Это дает нам локальное направление и величину желаемого изменения, потому что градиент указывает в направлении самого крутого подъема и функция потерь будет уменьшаться, когда мы движемся в направлении, противоположном градиенту. Градиент может не указывать прямо на решение с эластичной сеткой. Но поскольку функция упругих чистых потерь является выпуклой, локальное направление / величина дает некоторую информацию о том, как решение с упругими сетями будет отличаться от решения с мостиковой регрессией.

Случай 1: проверка работоспособности

( ). Мостовая регрессия в этом случае эквивалентна обычным наименьшим квадратам (OLS), потому что величина штрафа равна нулю. Эластичная сеть эквивалентна регрессии гребня, потому что наказывается только норма 2 . На следующих графиках показаны различные решения для регрессии моста и как ведет себя градиент эластичной сетки для каждого из них.λb=0,λ1=0,λ2=12

enter image description here

Левый график: градиент упругой сети против веса регрессии моста по каждому измерению

ww

Правый график: изменения эластичной сетки для весов регрессии моста (2d)

ww

Эти графики показывают, что по сравнению с мостовой регрессией (в данном случае OLS) эластичная сеть (в данном случае регрессия гребня) хочет уменьшить вес до нуля. Желаемая величина усадки увеличивается с величиной веса. Если веса равны нулю, решения одинаковы. Интерпретация заключается в том, что мы хотим двигаться в направлении, противоположном градиенту, чтобы уменьшить функцию потерь. Например, скажем, регрессия моста сходится к положительному значению для одного из весов. Градиент эластичной сетки является положительным в этой точке, поэтому эластичная сеть хочет уменьшить этот вес. Если бы использовать градиентный спуск, мы бы предприняли шаги, пропорциональные по размеру градиенту (конечно, мы не можем технически использовать градиентный спуск, чтобы решить упругую сеть из-за недифференцируемости в нуле,

Случай 2: Подходящий мост и эластичная сетка

( q=1.4,λb=1,λ1=0.629,λ2=0.355

minλ1,λ2E[(λ1w1+λ2w22λbwqq)2]

[2,2]

Штрафная поверхность

Вот контурный график общего штрафа, наложенного мостовой регрессией ( q=1.4,λb=100λ1=0.629,λ2=0.355

enter image description here

Градиент поведения

enter image description here

Мы можем видеть следующее:

  • wjj
  • Если |wj|<0.25
  • Если |wj|0.25
  • Если 0.25<|wj|<1.31
  • Если |wj|1.31
  • Если |wj|>1.31

Результаты качественно схожи, если мы изменим значение qλbλ1,λ2

Случай 3: Несоответствующий мост и эластичная сетка

(q=1.8,λb=1,λ1=0.765,λ2=0.225)λ1,λ212

enter image description here

По сравнению с мостовой регрессией эластичная сеть хочет уменьшить малые веса до нуля и увеличить большие веса. В каждом квадранте есть один набор весов, где регрессия моста и решения с эластичной сеткой совпадают, но эластичная сеть хочет отойти от этой точки, если веса отличаются даже незначительно.

(q=1.2,λb=1,λ1=173,λ2=0.816)1q>1λ1,λ221 штраф).

enter image description here

По сравнению с мостовой регрессией, эластичная сетка хочет увеличить малые веса и уменьшить большие веса. В каждом квадранте есть точка, в которой регрессия моста и решения с эластичной сеткой совпадают, и эластичная сеть хочет двигаться к этим весам из соседних точек.

user20160
источник
3
(+1) Отличный ответ, спасибо за усилия! Не могли бы вы затронуть еще одну вещь: «Эластичная сеть всегда более желательна?». Не нужно быть длинным;
Firebug
6
Мостовая регрессия и эластичная сеть эквивалентны оценке MAP с различными видами априорных значений весов. С этой точки зрения кажется, что лучшим выбором будет априор, который лучше соответствует процессу генерирования данных, и что ни один из методов не может быть лучше во всех случаях.
user20160
2
+6, очень хороший ответ. Относительно вашего комментария выше: что предшествует мосту регрессии? Я знаю, что гауссовский априор соответствует хребту и Лапласу до лассо. Можно ли как-то объединить эти приоры, чтобы получить нечто, соответствующее эластичной сети?
говорит амеба: восстанови монику
2
Я знаю, что вопрос не был адресован мне, но, как сказал GeneralAbrial в вопросе, бридж, вероятно, соответствует Субботину. Эластичная сеть, как и ожидалось, находится между гауссовыми и лапласианскими априорами. Смотри Li, Q. & Lin, N. (2010). Байесовская эластичная сетка. Байесовский анализ, 5 (1), 151-170. и Zou H. & Hastie T. (2005). Регуляризация и выбор переменных с помощью эластичной сетки. Журнал Королевского статистического общества: Серия B (Статистическая методология), 67 (2), 301-320. для краткого сравнения между эластичной сеткой и регрессией моста.
Firebug
2
@amoeba спасибо за щедрость и привлечение внимания к этому посту, равно как и к другому посту о PCA против нелинейного уменьшения размерности. Замечательно, что вы используете свою репутацию, чтобы продвигать вопросы / ответы других, и я рад, что этот пост имеет хоть какую-то небольшую ценность для людей. Другие, спасибо за добрые слова.
user20160