Почему штраф Лассо эквивалентен двойному экспоненциальному (Лапласу) ранее?

27

В ряде ссылок я читал, что оценка Лассо для вектора параметра регрессии эквивалентна апостериорной моде в которой предыдущее распределение для каждого является двойным экспоненциальным распределением (также известным как распределение Лапласа). $B$ $B$ $B_i$

Я пытался доказать это, кто-то может конкретизировать детали?

regression bayesian lasso prior regularization Wintermute
источник

@ user777 Сегодня я какое-то время просматривал эту книгу. Не смог найти ничего актуального.

Wintermute

3

Связанный: stats.stackexchange.com/questions/177210/…

Тим

30

Для простоты, давайте просто рассмотрим одно наблюдение переменной такое что $Y$

Y | μ, σ^{2} \sim N (μ, σ^{2}),

$Y|\mu, \sigma^2 \sim N(\mu, \sigma^2),$

$\mu \sim \mbox{Laplace}(\lambda)$ и неправильный предшествующий . $f(\sigma) \propto \mathbb{1}_{\sigma>0}$

Тогда объединенная плотность пропорциональна $Y, \mu, \sigma^2$

f (Y, μ, σ^{2} | λ) \propto \frac{1}{σ} \exp (- \frac{(y - μ)^{2}}{σ^{2}}) \times 2 λ e^{- λ | μ |} .

$f(Y, \mu, \sigma^2 | \lambda) \propto \frac{1}{\sigma}\exp \left(-\frac{(y-\mu)^2}{\sigma^2} \right) \times 2\lambda e^{-\lambda \vert \mu \vert}.$

Взятие журнала и отбрасывание терминов, которые не включают , $\mu$

\log f (Y, μ, σ^{2}) = - \frac{1}{σ^{2}} ‖ y - μ ‖_{2}^{2} - λ | μ | . (1)

$\log f(Y, \mu, \sigma^2) = -\frac{1}{\sigma^2} \Vert y-\mu\Vert_2^2 -\lambda \vert \mu \vert. \quad (1)$

Таким образом, максимум (1) будет оценкой MAP и действительно является проблемой Лассо после того, как мы повторно параметризовали $\tilde \lambda = \lambda \sigma^2$ .

Расширение на регрессию очевидно - замените на в правдоподобии Норма и установите предшествующий на последовательность независимых распределений Лапласа . $\mu$ $X\beta$ $\beta$ $(\lambda)$

Андрей М
источник

25

Это очевидно по количеству, оптимизируемому LASSO.

Возьмите априор для как независимый Лаплас со средним нулем и некоторой шкалой . $\beta_i$ $\tau$

Итак, . $p(\beta|\tau) \propto e^{-\frac{1}{2\tau} \sum_i|\beta_i|}$

Модель для данных - это обычное регрессионное предположение . $y \stackrel{\text{iid}}{\sim}N(X\beta,\sigma^2)$

$f(\mathbf{y}|\mathbf{X},\boldsymbol\beta,\sigma^{2}) \propto (\sigma^{2})^{-n/2} \exp\left(-\frac{1}{2{\sigma}^{2}}(\mathbf{y}- \mathbf{X} \boldsymbol\beta)^{\rm T}(\mathbf{y}- \mathbf{X} \boldsymbol\beta)\right)$

Теперь минус вдвое больше логово задних имеет форму

$k(\sigma^2,\tau,n,p)+$ $\frac{1}{{\sigma}^{2}} (\mathbf{y}- \mathbf{X} \boldsymbol\beta)^{\rm T}(\mathbf{y}- \mathbf{X} \boldsymbol\beta)+ \frac{1}{\tau} \sum_i|\beta_i|$

Пусть и мы получим posterior of $\lambda=\sigma^2/\tau$ $-2\log$

$k(\sigma^2,\lambda,n,p)+$ $\frac{1}{{\sigma}^{2}}\left[ (\mathbf{y}- \mathbf{X} \boldsymbol\beta)^{\rm T}(\mathbf{y}- \mathbf{X} \boldsymbol\beta)+ \lambda \sum_i|\beta_i|\right]$

Оценка MAP для сводит к минимуму вышеизложенное, что минимизирует $\beta$

$S=(\mathbf{y}- \mathbf{X} \boldsymbol\beta)^{\rm T}(\mathbf{y}- \mathbf{X} \boldsymbol\beta)+ \lambda \sum_i|\beta_i|$

Таким образом, оценщик MAP для - это LASSO. $\beta$

(Здесь я рассматривал как эффективно исправленный, но вы можете делать с ним другие вещи и при этом получать LASSO.) $\sigma^2$

Изменить: это то, что я получаю за составление ответа в автономном режиме; Я не видел, чтобы хороший ответ был уже отправлен Эндрю. Мой действительно ничего не делает, его уже нет. Сейчас я оставлю свой, потому что он дает еще пару деталей развития с точки зрения . $\beta$

Glen_b - Восстановить Монику
источник

1

Кажется, есть разница в вашем ответе и ответе Эндрю. Ваш ответ имеет правильную форму регуляризатора: , а у Эндрюгде в линейной регрессии получаем .

λ ‖ β ‖_{1}

$\lambda \|\beta\|_1$

λ | μ |

$\lambda |\mu|$

μ = X β

$\mu=X\beta$

Алекс Р.

2

@AlexR Я думаю, вы неверно истолковали μ в ответе Эндрю. Μ соответствует в регрессии только с перехватом, а не в множественной регрессии; тот же аргумент следует для более крупного случая (обратите внимание на параллели с моим ответом), но в простом случае легче следовать. Ответ Эндрю по существу правильный, но он не связывает все точки с исходным вопросом, оставляя читателю небольшую сумму для заполнения. Я думаю, что наши ответы последовательны (вплоть до некоторых незначительных различий, касающихся σ, которые можно объяснить) и что он полностью заслужил галочку

β_{0}

$\beta_0$

X β

$X\beta$

Glen_b

Почему штраф Лассо эквивалентен двойному экспоненциальному (Лапласу) ранее?

Ответы: