Почему регрессия гребня не сократит некоторые коэффициенты до нуля, как лассо?

16

При объяснении регрессии LASSO часто используется диаграмма ромба и круга. Говорят, что поскольку форма ограничения в LASSO представляет собой алмаз, полученное решение наименьших квадратов может касаться угла алмаза, так что оно приводит к усадке некоторой переменной. Однако в регрессии гребня, потому что это круг, он часто не будет касаться оси. Я не мог понять, почему он не может коснуться оси или может иметь меньшую вероятность, чем LASSO, чтобы уменьшить определенные параметры. Кроме того, почему LASSO и гребень имеют меньшую дисперсию, чем обычные наименьшие квадраты? Выше мое понимание риджа и LASSO, и я могу ошибаться. Может ли кто-нибудь помочь мне понять, почему эти два метода регрессии имеют меньшую дисперсию?

user10024395
источник
1
Возможный дубликат Почему Лассо обеспечивает Выбор Переменных?
Юхо Коккала
1
Хорошо, часть дисперсии, выделенная жирным шрифтом, не является дубликатом, по крайней мере, этого вопроса; так что, возможно, этот вопрос можно отредактировать, чтобы сосредоточиться на этом.
Юхо Коккала
Это хорошо объясняется на рисунке 3.11 из web.stanford.edu/~hastie/local.ftp/Springer/OLD/...
@fcop Я прочитал книгу, но я не совсем понимаю математику
user10024395
Но чтобы понять картину, вам не нужна математика?

Ответы:

26

Это касается дисперсии

OLS обеспечивает то, что называется лучшим линейным объективным оценщиком (СИНИЙ) . Это означает, что если вы возьмете любой другой объективный оценщик, он будет иметь более высокую дисперсию, чем решение OLS. Так с какой стати мы должны рассматривать что-то еще, кроме этого?

Теперь трюк с регуляризацией, такой как лассо или гребень, заключается в добавлении некоторого смещения по очереди, чтобы попытаться уменьшить дисперсию. Потому что , когда вы оцениваете свои ошибки предсказания, это сочетание трех вещей :

Е[(Y-е^(Икс))2]знак равнопредвзятость[е^(Икс))]2+Var[е^(Икс))]+σ2
Последняя часть - это неустранимая ошибка, поэтому мы не можем ее контролировать. При использовании решения OLS термин смещения равен нулю. Но может быть так, что второй член большой. Это может быть хорошей идеей ( если мы хотим хорошие прогнозы ), чтобы добавить некоторый уклон и, надеюсь, уменьшить дисперсию.

Так что же это ? Это дисперсия, введенная в оценки параметров вашей модели. Линейная модель имеет вид y = X β + ϵ ,Var[f^(x))] Для того, чтобы получить решение МНК мы решить проблему минимизации Arg мин & beta ; | | y - X β | | 2 Это обеспечивает решение & beta ; МНК = ( Х Т Х ) - 1 х Т у задачи минимизации конька регрессии аналогично: Arg мин & beta ; | | y - X β | |

y=Xβ+ϵ,ϵN(0,σ2I)
argminβ||yXβ||2
β^OLS=(XTX)1XTy
Теперь решение становится β - Ридж = ( X T X + λ I ) - 1 X T у Таким образоммы добавляем этот Л I (называемый гребень) на диагонали матрицы, мы инвертировать. Эффект, который это оказывает на матрицу X T X, состоит в том, что он «тянет» определитель матрицы от нуля. Таким образом, когда вы инвертируете его, вы не получите огромных собственных значений. Но это приводит к еще одному интересному факту, а именно: дисперсия оценок параметров становится ниже.
argminβ||yXβ||2+λ||β||2λ>0
β^Ridge=(XTX+λI)1XTy
λIXTX

Я не уверен, что смогу дать более четкий ответ, чем этот. Все это сводится к ковариационной матрице для параметров в модели и величине значений в этой ковариационной матрице.

В качестве примера я взял регрессию гребня, потому что это гораздо легче лечить. Лассо намного сложнее, и по- прежнему ведутся активные исследования на эту тему.

На этих слайдах представлена ​​дополнительная информация, а в этом блоге также есть соответствующая информация.

РЕДАКТИРОВАТЬ: Что я имею в виду, что при добавлении гребня детерминант " оттягивается " от нуля?

XTX

det(XTXtI)=0
t
det(XTX+λItI)=0
йе(ИксTИкс-(T-λ)я)знак равно0
(T-λ)TяTя+λλ

Вот некоторый код R, чтобы проиллюстрировать это:

# Create random matrix
A <- matrix(sample(10,9,T),nrow=3,ncol=3)

# Make a symmetric matrix
B <- A+t(A)

# Calculate eigenvalues
eigen(B)

# Calculate eigenvalues of B with ridge
eigen(B+3*diag(3))

Который дает результаты:

> eigen(B)
$values
[1] 37.368634  6.952718 -8.321352

> eigen(B+3*diag(3))
$values
[1] 40.368634  9.952718 -5.321352

Таким образом, все собственные значения сдвигаются ровно на 3.

В общем случае это можно доказать, используя теорему Гершгорина о окружности . Там центры окружностей, содержащие собственные значения, являются диагональными элементами. Вы всегда можете добавить «достаточно» к диагональному элементу, чтобы сделать все круги в положительной реальной полуплоскости. Этот результат является более общим и не нужен для этого.

Gumeo
источник
Можете ли вы объяснить, как он «оттягивает» определитель от нуля (математически)? Спасибо
user10024395
@ user2675516 Я отредактировал свой ответ.
Gumeo
«Это означает, что если вы возьмете любой другой объективный оценщик, он будет иметь более высокую дисперсию, чем решение OLS». Вы имеете в виду более высокий уклон, чем OLS? Я думал, что OLS имеет наименьшее смещение, поэтому все остальное будет иметь более высокий уклон
Просьба
@ML_Pro OLS имеет нулевое смещение, и из всех несмещенных оценок оно имеет наименьшую дисперсию. Это теорема . Так что если вы выберете любой другой, дисперсия увеличится. Но если вы упорядочите, вы введете предвзятость.
Gumeo
Благодарность! Ваш ответ сделал меня любопытным. Можете ли вы ответить на этот новый вопрос, который я создал? stats.stackexchange.com/questions/294926/…
GeorgeOfTheRF
2

Хребет регрессии

L2 = (y-xβ) ^ 2 + λ∑βi ^ 2

Решим это уравнение только для одного β на данный момент, и последнее можно обобщить так:

Итак, (y-xβ) ^ 2 + λβ ^ 2 это наше уравнение для одного β.

Наша цель состоит в том, чтобы минимизировать приведенное выше уравнение, чтобы иметь возможность сделать это, приравнять его к нулю и принимать производные по β

Y ^ 2- 2xyβ + x ^ 2 β ^ 2 + λβ ^ 2 = 0 ------- Использование (ab) ^ 2

Частичные производные по отношению к

-2xy + 2x ^ 2β + 2βλ = 0

2β (x ^ 2 + λ) = 2xy

β = 2xy / 2 (x ^ 2 + λ)

в заключение

β = xy / (x ^ 2 + λ)

Если вы наблюдаете знаменатель, он никогда не станет нулевым, так как мы добавляем некоторое значение λ (то есть гиперпараметр). И, следовательно, значение β будет как можно ниже, но не станет равным нулю.

LASSO регрессия:

L1 = (y-xβ) ^ 2 + λ∑ | β |

Решим это уравнение только для одного β на данный момент, и последнее вы можете обобщить на большее β:

Итак, (y-xβ) ^ 2 + λβ это наше уравнение для одного β, Здесь я рассмотрел + ve значение β.

Наша цель состоит в том, чтобы минимизировать приведенное выше уравнение, чтобы иметь возможность сделать это, приравнять его к нулю и принимать производные по β

Y ^ 2- 2xyβ + x ^ 2 β ^ 2 + λβ = 0 ------- Использование (ab) ^ 2

Частичные производные по отношению к

-2xy + 2x ^ 2β + λ = 0

2x ^ 2β + λ = 2xy

2x ^ 2β = 2х-λ

в заключение

β = (2xy-λ) / (2X ^ 2)

Если вы наблюдаете числитель, он станет нулевым, так как мы вычитаем некоторое значение λ (то есть гиперпараметр). И поэтому значение β будет установлено равным нулю.

Четан Патил
источник