Связь между лассо

9

Этот вопрос может быть глупым, но я заметил, что есть две различные формулировки регрессии Лассо . Мы знаем, что проблема Лассо состоит в том, чтобы минимизировать цель, состоящую из квадрата потерь и штрафного члена -1, выраженного следующим образом: L

minβyXβ22+λβ1

Но часто я видел, что оценку Лассо можно записать как

β^n(λ)=argminβ{12nyXβ22+λβ1}

Мой вопрос, эквивалентны ли? Откуда берется термин 12n ? Связь между этими двумя формулировками не очевидна для меня.

[Обновить] Я думаю, другой вопрос, который я должен задать,

Почему существует вторая формулировка? В чем преимущество, теоретически или в вычислительном отношении, постановки проблемы таким образом?

Аарон Зенг
источник
2
Если вы установите во второй формулировке равной умноженной на в первой формулировке, то целевая функция во второй формулировке будет в раз больше целевой функции в первой формулировке. По сути, вы просто изменили единицы измерения потерь. Как вы думаете, что изменит оптимальные значения ? λ1/(2n)λ1/(2n)β
whuber
Спасибо @Whuber. Это имеет смысл для меня. Тогда почему последняя формулировка? В чем преимущество, теоретически или в вычислительном отношении, постановки проблемы таким образом?
Аарон Зенг

Ответы:

10

Они действительно эквивалентны, так как вы всегда можете изменить масштаб (см. Также комментарий @ whuber). С теоретической точки зрения это вопрос удобства, но, насколько я знаю, в этом нет необходимости. С вычислительной точки зрения, я на самом деле считаю довольно раздражающим, поэтому я обычно использую первую формулировку, если я разрабатываю алгоритм, который использует регуляризацию.λ1/(2n)

Небольшая предыстория: Когда я впервые начал изучать штрафные методы, меня раздражало носить повсюду в моей работе, поэтому я предпочел игнорировать его - это даже упростило некоторые мои вычисления. В то время моя работа была в основном вычислительной. Совсем недавно я занимался теоретической работой, и я нашел обязательным (даже против, скажем, ).1/(2n)1/(2n)1/n

Более подробно: Когда вы пытаетесь проанализировать поведение Лассо как функцию размера выборки , вам часто приходится иметь дело с суммами случайных величин iid, и на практике, как правило, удобнее анализировать такие суммы после нормализации по - -придумайте закон больших чисел / центральную предельную теорему (или если вы хотите получить фантазию, концентрацию меры и эмпирическую теорию процессов). Если у вас нет термина перед потерей, в конечном итоге вы в конечном итоге что-то пересчитаете в конце анализа, поэтому обычно лучше начинать с него. удобна тем , что она отменяет некоторые раздражающие факторыnn1/n1/22 в анализе (например, когда вы берете производную от квадрата убыточного члена).

Другой способ думать об этом состоит в том, что, занимаясь теорией, мы обычно интересуемся поведением решений при увеличении то есть не является некоторой фиксированной величиной. На практике, когда мы запускаем Лассо для некоторого фиксированного набора данных, действительно является фиксированным с точки зрения алгоритма / вычислений. Так что наличие дополнительного нормализующего фактора не так уж и полезно.nnn

Это может показаться раздражающим вопросом удобства, но потратив достаточно времени на манипулирование такого рода неравенствами, я научился любить .1/(2n)

JohnÂ?
источник
3
Как только вы поймете, для чего нужны эти нормализующие константы, вы начнете видеть их повсюду .
Мэтью Друри,
Спасибо за это объяснение. Мы так гордимся тем, что прочитали ваши замечательные впечатления в этой области. Еще раз спасибо
Кристина