Этот вопрос может быть глупым, но я заметил, что есть две различные формулировки регрессии Лассо . Мы знаем, что проблема Лассо состоит в том, чтобы минимизировать цель, состоящую из квадрата потерь и штрафного члена -1, выраженного следующим образом:
Но часто я видел, что оценку Лассо можно записать как
Мой вопрос, эквивалентны ли? Откуда берется термин ? Связь между этими двумя формулировками не очевидна для меня.
[Обновить] Я думаю, другой вопрос, который я должен задать,
Почему существует вторая формулировка? В чем преимущество, теоретически или в вычислительном отношении, постановки проблемы таким образом?
Ответы:
Они действительно эквивалентны, так как вы всегда можете изменить масштаб (см. Также комментарий @ whuber). С теоретической точки зрения это вопрос удобства, но, насколько я знаю, в этом нет необходимости. С вычислительной точки зрения, я на самом деле считаю довольно раздражающим, поэтому я обычно использую первую формулировку, если я разрабатываю алгоритм, который использует регуляризацию.λ 1/(2n)
Небольшая предыстория: Когда я впервые начал изучать штрафные методы, меня раздражало носить повсюду в моей работе, поэтому я предпочел игнорировать его - это даже упростило некоторые мои вычисления. В то время моя работа была в основном вычислительной. Совсем недавно я занимался теоретической работой, и я нашел обязательным (даже против, скажем, ).1/(2n) 1/(2n) 1/n
Более подробно: Когда вы пытаетесь проанализировать поведение Лассо как функцию размера выборки , вам часто приходится иметь дело с суммами случайных величин iid, и на практике, как правило, удобнее анализировать такие суммы после нормализации по - -придумайте закон больших чисел / центральную предельную теорему (или если вы хотите получить фантазию, концентрацию меры и эмпирическую теорию процессов). Если у вас нет термина перед потерей, в конечном итоге вы в конечном итоге что-то пересчитаете в конце анализа, поэтому обычно лучше начинать с него. удобна тем , что она отменяет некоторые раздражающие факторыn n 1/n 1/2 2 в анализе (например, когда вы берете производную от квадрата убыточного члена).
Другой способ думать об этом состоит в том, что, занимаясь теорией, мы обычно интересуемся поведением решений при увеличении то есть не является некоторой фиксированной величиной. На практике, когда мы запускаем Лассо для некоторого фиксированного набора данных, действительно является фиксированным с точки зрения алгоритма / вычислений. Так что наличие дополнительного нормализующего фактора не так уж и полезно.n n n
Это может показаться раздражающим вопросом удобства, но потратив достаточно времени на манипулирование такого рода неравенствами, я научился любить .1/(2n)
источник