Почему L1 норма для разреженных моделей

97

Я читаю книги о линейной регрессии. Есть несколько предложений о нормах L1 и L2. Я их знаю, просто не понимаю, почему L1 норма для разреженных моделей. Может кто-то использовать дать простое объяснение?

regression lasso regularization ridge-regression Юнвэй Син
источник

4

В основном, разреженность вызвана острыми краями, лежащими на оси изоповерхности. Лучшее графическое объяснение, которое я нашел на данный момент, находится в этом видео: youtube.com/watch?v=sO4ZirJh9ds

felipeduque

1

Там блог статью о том же chioka.in/...

Prashanth

Проверьте следующий пост Medium. Это может помочь medium.com/@vamsi149/...

solver149

111

Рассмотрим вектор где мало. В и нормы , соответственно, задаются $\vec{x}=(1,\varepsilon)\in\mathbb{R}^2$ $\varepsilon>0$ $l_1$ $l_2$ $\vec{x}$

| | \vec{x} | |_{1} = 1 + ε, | | \vec{x} | |_{2}^{2} = 1 + ε^{2}

$||\vec{x}||_1 = 1+\varepsilon,\ \ ||\vec{x}||_2^2 = 1+\varepsilon^2$

Теперь скажем, что в рамках некоторой процедуры регуляризации мы собираемся уменьшить величину одного из элементов на . Если мы изменим на , результирующие нормы $\vec{x}$ $\delta\leq\varepsilon$ $x_1$ $1-\delta$

| | \vec{x} - (δ, 0) | |_{1} = 1 - δ + ε, | | \vec{x} - (δ, 0) | |_{2}^{2} = 1 - 2 δ + δ^{2} + ε^{2}

$||\vec{x}-(\delta,0)||_1 = 1-\delta+\varepsilon,\ \ ||\vec{x}-(\delta,0)||_2^2 = 1-2\delta+\delta^2+\varepsilon^2$

С другой стороны, уменьшение на дает нормы $x_2$ $\delta$

| | \vec{x} - (0, δ) | |_{1} = 1 - δ + ε, | | \vec{x} - (0, δ) | |_{2}^{2} = 1 - 2 ε δ + δ^{2} + ε^{2}

$||\vec{x}-(0,\delta)||_1 = 1-\delta+\varepsilon,\ \ ||\vec{x}-(0,\delta)||_2^2 = 1-2\varepsilon\delta+\delta^2+\varepsilon^2$

Здесь следует отметить, что при штрафе регуляризация большего члена приводит к гораздо большему уменьшению нормы, чем при меньшем члене . Для штрафа , однако, снижение то же самое. Таким образом, при наложении штрафа на модель с использованием нормы очень маловероятно, что что-либо когда-либо будет установлено на ноль, поскольку уменьшение нормы переходе от к практически не существует, когда мало. С другой стороны, снижение $l_2$ $x_1$ $x_2\approx 0$ $l_1$ $l_2$ $l_2$ $\varepsilon$ $0$ $\varepsilon$ $l_1$ норма всегда равна , независимо от количества штрафа. $\delta$

Еще один способ думать об этом: не столько, что штрафы поощряют разреженность, но что штрафы в некотором смысле препятствуют разреженности, принося убывающую отдачу, когда элементы приближаются к нулю. $l_1$ $l_2$

bnaul
источник

3

Спасибо за Ваш ответ! Впрочем, последний пункт меня не убеждает. Если вы запускаете линейную регрессию без штрафных санкций, вы вряд ли когда-либо получите разреженные решения (тогда как добавление штрафа L1 часто даст вам разреженность). Таким образом, штрафы L1 на самом деле способствуют разреженности, посылая коэффициенты, которые начинаются с нуля точно с нуля.

Стефан Вейджер

2

@StefanWager может быть, это немного преувеличение, но я думаю, что это правда, что здесь нет ничего особенного в штрафе

штраф

для любого

также вызовет разреженность, но вы видите это на практике реже ( вероятно потому что они не выпуклые). Если вы действительно просто хотите разреженности, тогда штраф

(пропорциональный количеству ненулевых записей) - это путь, так уж сложилось, что работать с ним немного кошмарно.

l_{1}

$l_1$

l_{α}

$l_\alpha$

α \leq 1

$\alpha\leq1$

l_{0}

$l_0$

bnaul

1

Да, это правильно. Есть много норм, которые приводят к разреженности (например, как вы упомянули, любая норма Lp с p <= 1). В общем, любая норма с острым углом в нуле вызывает разреженность. Итак, возвращаясь к первоначальному вопросу - норма L1 вызывает разреженность, имея разрывный градиент в нуле (и любой другой штраф с этим свойством будет делать это тоже).

Стефан Вейджер

3

В случае, если кто-то хочет прочитать больше, есть активная литература о невыпуклых штрафных функциях, которые являются альтернативами норме L1 (например, недавно , apers.nips.cc/paper/… ).

Стефан Вейджер

1

отличный ответ, я долго размышлял, пока не нашел это.

Хади Эльсахар

73

В разреженной модели мы думаем о модели, в которой многие веса равны 0. Поэтому рассмотрим, как L1-регуляризация с большей вероятностью может создать 0-веса.

Рассмотрим модель, состоящую из весов . $(w_1, w_2, \dots, w_m)$

С регуляризацией L1 вы штрафуете модель функцией потерь = , $L_1(w)$ $\Sigma_i |w_i|$

С L2-регуляризацией вы штрафуете модель функцией потерь = $L_2(w)$ $\frac{1}{2} \Sigma_i w_i^2$

При использовании градиентного спуска вы будете итеративно изменять веса в противоположном направлении градиента с шагом умноженным на градиент. Это означает, что более крутой градиент заставит нас сделать больший шаг, в то время как более плоский градиент заставит нас сделать меньший шаг. Давайте посмотрим на градиенты (субградиент в случае L1): $\eta$

, где $\frac{dL_1(w)}{dw} = sign(w)$ $sign(w) = (\frac{w_1}{|w_1|}, \frac{w_2}{|w_2|}, \dots, \frac{w_m}{|w_m|})$

$\frac{dL_2(w)}{dw} = w$

Если мы построим график функции потерь и ее производной для модели, состоящей только из одного параметра, то для L1 это будет выглядеть так:

введите описание изображения здесь

И вот так для L2:

Обратите внимание, что для градиент равен 1 или -1, за исключением случаев, когда . Это означает, что L1-регуляризация будет перемещать любой вес к 0 с тем же размером шага, независимо от значения веса. Напротив, вы можете видеть, что градиент линейно уменьшается к 0, когда вес приближается к 0. Поэтому L2-регуляризация также сместит любой вес к 0, но при приближении веса к 0 будут предприниматься все меньшие и меньшие шаги. $L_1$ $w_1 = 0$ $L_2$

Попробуйте представить себе, что вы начинаете с модели с и использованием $w_1 = 5$ . На следующем рисунке вы можете увидеть, как градиентный спуск с использованием L1-регуляризации делает 10 обновлений $\eta = \frac{1}{2}$ , до достижения модели с: $w_1 := w_1 - \eta \cdot \frac{dL_1(w)}{dw} = w_1 - \frac{1}{2} \cdot 1$ $w_1 = 0$

введите описание изображения здесь

В отличие от этого, с L2-регуляризацией, где , градиент равен, в результате чего каждый шаг находится на полпути к 0. То есть мы производим обновление $\eta = \frac{1}{2}$ $w_1$ Следовательно, модель никогда не достигает веса 0, независимо от того, сколько шагов мы предпримем: $w_1 := w_1 - \eta \cdot \frac{dL_2(w)}{dw} = w_1 - \frac{1}{2} \cdot w_1$

введите описание изображения здесь

$\eta$

Кент Мунте Касперсен
источник

3

η = 0.5

$\eta = 0.5$

w_{f i r s t s t e p} = 0.1 - 0.5 * (+ 1) => w = - 0.4

$w_{first\text{ }step} = 0.1 - 0.5*(+1) => w = -0.4$

w_{s e c o n d s t e p} = - 0.4 - 0.5 * (- 1) = 0.1.

$w_{second step} = -0.4 - 0.5*(-1) = 0.1.$

5

@AlexYashin, это правильно - если мы только обновили веса, основанные на регуляризации L1, мы могли бы в конечном итоге иметь веса, которые колеблются около 0. Но мы никогда не используем только регуляризацию для регулировки весов. Мы используем регуляризацию в сочетании с оптимизацией функции потерь. Таким образом, регуляризация сдвигает весы к нулю, в то время как мы одновременно пытаемся подтолкнуть весы к значению, которое оптимизирует прогнозы. Второй аспект - это скорость обучения. С меньшей скоростью обучения мы можем приблизиться к значению, что регуляризация может колебаться вокруг, что мы можем пренебречь им

Кент Munthe

1

Почему dL2(w)/dw«модуль», а не просто линейный?

mrgloom

1

@mrgloom dL2(w)/dwможно считать L2(w)изменением веса. Так как L2-регуляризация возводит в квадрат веса, L2(w)изменится намного больше для того же изменения весов, когда у нас есть более высокие веса. Вот почему функция выпуклая, когда вы строите ее. Для L1, однако, изменение L1(w)веса на изменение одинаково, независимо от того, какие у вас веса - это приводит к линейной функции.

Кент Мунте Касперсен

1

@KentMuntheCaspersen Удивительное объяснение! Спасибо за графики и усилия, которые вы вложили, чтобы сделать это интуитивно понятным!

лайсер

15

Рисунок 3.11 из Элементов Статистического Обучения Хасти, Тибширани и Фридмана очень показателен:

$\hat{\beta}$ $\beta_1$ $\beta_2$ $\hat{\beta}$ $L_1$ $L_2$ ) регрессия соответственно. Эвристически, для каждого метода мы ищем пересечение красных эллипсов и синей области, так как цель состоит в том, чтобы минимизировать функцию ошибок при сохранении осуществимости.

$L_1$

Zhanxiong
источник

16

Иллюстрация не очень убедительна без дополнительной информации. Например, почему контуры ошибки должны быть расположены там, где они находятся на рисунке?

Ваббит

@HrishikeshGanu В конце концов, у меня появилось время для редактирования поста.

Zhanxiong

Все контуры будут иметь одинаковую форму ...

kjetil b halvorsen

1

\hat{β}

$\hat{\beta}$

β_{1}

$\beta_1$

β_{2}

$\beta_2$

β_{1} = β_{2}

$\beta_1 = \beta_2$

13

$\hat \beta$ $\hat \beta$ $\ell_1 (\hat \beta) < t$ $\ell_2 (\hat \beta) < t$

$\ell_1$ $\ell_1$ $\{ x : \ell_1(x) \le 1\}$

В более общем смысле, эта книга является хорошим справочным материалом по этому вопросу: и строгим, и хорошо иллюстрированным, с отличными объяснениями

Элвис
источник

3

Я думаю, что ваш второй абзац является ключевым ... по крайней мере, для моей интуиции: «шар» l1 больше похож на алмаз, пронзительный по осям, что означает, что гиперплоскость, вынужденная ударить его, с большей вероятностью будет иметь ноль на оси

Уэйн

2

\hat{β}

$\hat \beta$

ℓ_{1}

$\ell_1$

ℓ_{2}

$\ell_2$

ℓ_{1}

$\ell_1$

ℓ_{2}

$\ell_2$

\hat{β}

$\hat \beta$

3

Книга хорошая, но она никогда не объясняет, откуда она взялась и какая математика стоит за ней.

user13985

2

Простой нематематический ответ:

Для L2: штрафной термин возводится в квадрат , поэтому возведение в квадрат маленького значения сделает его меньше. Нам не нужно устанавливать ноль для достижения нашей цели - получить минимальную квадратную ошибку, мы получим ее до этого.

Для L1: штрафной термин является абсолютным , нам может потребоваться перейти к нулю, так как нет катализатора, чтобы сделать маленький меньше .

Это моя точка зрения.

Арнаб Мукерджи
источник

Не очень убедительно для меня.

Тайлер 玉门将士归玉门

2

На рисунке показаны формы области, занимаемой нормами L1 и L2. Второе изображение состоит из различных контуров градиентного спуска для различных задач регрессии. На всех контурных графиках наблюдайте красный круг, который пересекает хребет или норму L2. пересечение не на осях. Черный круг во всех контурах представляет тот, который пересекает норму L1 или лассо. Пересекается относительно близко к осям. Это приводит к увеличению коэффициентов до 0 и, следовательно, к выбору признаков. Следовательно, норма L1 делает модель разреженной.

Более подробное объяснение по следующей ссылке: Нажмите Post to Towers Data Science

solver149
источник

ℓ_{2}

$\ell_2$

β_{1} = 1

$\beta_1 = 1$

β_{1} = 0

$\beta_1 = 0$

L_{1}

$L_1$

Почему L1 норма для разреженных моделей

Ответы: