Связь между лассо

Этот вопрос может быть глупым, но я заметил, что есть две различные формулировки регрессии Лассо . Мы знаем, что проблема Лассо состоит в том, чтобы минимизировать цель, состоящую из квадрата потерь и штрафного члена -1, выраженного следующим образом: $L$

min_{β} ‖ y - X β ‖_{2}^{2} + λ ‖ β ‖_{1}

$\min_\beta \|y - X \beta\|_2^2 + \lambda \|\beta\|_1 \;$

Но часто я видел, что оценку Лассо можно записать как

{\hat{β}}_{n} (λ) = \arg min_{β} {\frac{1}{2 n} ‖ y - X β ‖_{2}^{2} + λ ‖ β ‖_{1}}

$\hat{\beta}_n(\lambda) = \displaystyle\arg \min_{\beta} \{\frac {1}{2n} \|y - X \beta\|_2^2 + \lambda \|\beta\|_1 \}$

Мой вопрос, эквивалентны ли? Откуда берется термин $\frac {1}{2n}$ ? Связь между этими двумя формулировками не очевидна для меня.

[Обновить] Я думаю, другой вопрос, который я должен задать,

Почему существует вторая формулировка? В чем преимущество, теоретически или в вычислительном отношении, постановки проблемы таким образом?

lasso Аарон Зенг
источник

Если вы установите во второй формулировке равной умноженной на в первой формулировке, то целевая функция во второй формулировке будет в раз больше целевой функции в первой формулировке. По сути, вы просто изменили единицы измерения потерь. Как вы думаете, что изменит оптимальные значения ?

λ

$\lambda$

1 / (2 n)

$1/(2n)$

λ

$\lambda$

1 / (2 n)

$1/(2n)$

β

$\beta$

whuber

Спасибо @Whuber. Это имеет смысл для меня. Тогда почему последняя формулировка? В чем преимущество, теоретически или в вычислительном отношении, постановки проблемы таким образом?

Аарон Зенг

Они действительно эквивалентны, так как вы всегда можете изменить масштаб (см. Также комментарий @ whuber). С теоретической точки зрения это вопрос удобства, но, насколько я знаю, в этом нет необходимости. С вычислительной точки зрения, я на самом деле считаю довольно раздражающим, поэтому я обычно использую первую формулировку, если я разрабатываю алгоритм, который использует регуляризацию. $\lambda$ $1/(2n)$

Небольшая предыстория: Когда я впервые начал изучать штрафные методы, меня раздражало носить повсюду в моей работе, поэтому я предпочел игнорировать его - это даже упростило некоторые мои вычисления. В то время моя работа была в основном вычислительной. Совсем недавно я занимался теоретической работой, и я нашел обязательным (даже против, скажем, ). $1/(2n)$ $1/(2n)$ $1/n$

Более подробно: Когда вы пытаетесь проанализировать поведение Лассо как функцию размера выборки , вам часто приходится иметь дело с суммами случайных величин iid, и на практике, как правило, удобнее анализировать такие суммы после нормализации по - -придумайте закон больших чисел / центральную предельную теорему (или если вы хотите получить фантазию, концентрацию меры и эмпирическую теорию процессов). Если у вас нет термина перед потерей, в конечном итоге вы в конечном итоге что-то пересчитаете в конце анализа, поэтому обычно лучше начинать с него. удобна тем , что она отменяет некоторые раздражающие факторы $n$ $n$ $1/n$ $1/2$ $2$ в анализе (например, когда вы берете производную от квадрата убыточного члена).

Другой способ думать об этом состоит в том, что, занимаясь теорией, мы обычно интересуемся поведением решений при увеличении то есть не является некоторой фиксированной величиной. На практике, когда мы запускаем Лассо для некоторого фиксированного набора данных, действительно является фиксированным с точки зрения алгоритма / вычислений. Так что наличие дополнительного нормализующего фактора не так уж и полезно. $n$ $n$ $n$

Это может показаться раздражающим вопросом удобства, но потратив достаточно времени на манипулирование такого рода неравенствами, я научился любить . $1/(2n)$

JohnÂ?
источник

Как только вы поймете, для чего нужны эти нормализующие константы, вы начнете видеть их повсюду .

Мэтью Друри,

Спасибо за это объяснение. Мы так гордимся тем, что прочитали ваши замечательные впечатления в этой области. Еще раз спасибо

Кристина

Связь между лассо

Ответы: