При объяснении регрессии LASSO часто используется диаграмма ромба и круга. Говорят, что поскольку форма ограничения в LASSO представляет собой алмаз, полученное решение наименьших квадратов может касаться угла алмаза, так что оно приводит к усадке некоторой переменной. Однако в регрессии гребня, потому что это круг, он часто не будет касаться оси. Я не мог понять, почему он не может коснуться оси или может иметь меньшую вероятность, чем LASSO, чтобы уменьшить определенные параметры. Кроме того, почему LASSO и гребень имеют меньшую дисперсию, чем обычные наименьшие квадраты? Выше мое понимание риджа и LASSO, и я могу ошибаться. Может ли кто-нибудь помочь мне понять, почему эти два метода регрессии имеют меньшую дисперсию?
regression
lasso
ridge-regression
user10024395
источник
источник
Ответы:
Это касается дисперсии
OLS обеспечивает то, что называется лучшим линейным объективным оценщиком (СИНИЙ) . Это означает, что если вы возьмете любой другой объективный оценщик, он будет иметь более высокую дисперсию, чем решение OLS. Так с какой стати мы должны рассматривать что-то еще, кроме этого?
Теперь трюк с регуляризацией, такой как лассо или гребень, заключается в добавлении некоторого смещения по очереди, чтобы попытаться уменьшить дисперсию. Потому что , когда вы оцениваете свои ошибки предсказания, это сочетание трех вещей :
Так что же это ? Это дисперсия, введенная в оценки параметров вашей модели. Линейная модель имеет вид y = X β + ϵ ,Var[f^(x))] Для того,
чтобы получить решение МНК мы решить проблему минимизации
Arg мин & beta ; | | y - X β | | 2
Это обеспечивает решение
& beta ; МНК = ( Х Т Х ) - 1 х Т у
задачи минимизации конька регрессии аналогично:
Arg мин & beta ; | | y - X β | |
Я не уверен, что смогу дать более четкий ответ, чем этот. Все это сводится к ковариационной матрице для параметров в модели и величине значений в этой ковариационной матрице.
В качестве примера я взял регрессию гребня, потому что это гораздо легче лечить. Лассо намного сложнее, и по- прежнему ведутся активные исследования на эту тему.
На этих слайдах представлена дополнительная информация, а в этом блоге также есть соответствующая информация.
РЕДАКТИРОВАТЬ: Что я имею в виду, что при добавлении гребня детерминант " оттягивается " от нуля?
Вот некоторый код R, чтобы проиллюстрировать это:
Который дает результаты:
Таким образом, все собственные значения сдвигаются ровно на 3.
В общем случае это можно доказать, используя теорему Гершгорина о окружности . Там центры окружностей, содержащие собственные значения, являются диагональными элементами. Вы всегда можете добавить «достаточно» к диагональному элементу, чтобы сделать все круги в положительной реальной полуплоскости. Этот результат является более общим и не нужен для этого.
источник
Хребет регрессии
L2 = (y-xβ) ^ 2 + λ∑βi ^ 2
Решим это уравнение только для одного β на данный момент, и последнее можно обобщить так:
Итак, (y-xβ) ^ 2 + λβ ^ 2 это наше уравнение для одного β.
Наша цель состоит в том, чтобы минимизировать приведенное выше уравнение, чтобы иметь возможность сделать это, приравнять его к нулю и принимать производные по β
Y ^ 2- 2xyβ + x ^ 2 β ^ 2 + λβ ^ 2 = 0 ------- Использование (ab) ^ 2
Частичные производные по отношению к
-2xy + 2x ^ 2β + 2βλ = 0
2β (x ^ 2 + λ) = 2xy
β = 2xy / 2 (x ^ 2 + λ)
в заключение
β = xy / (x ^ 2 + λ)
Если вы наблюдаете знаменатель, он никогда не станет нулевым, так как мы добавляем некоторое значение λ (то есть гиперпараметр). И, следовательно, значение β будет как можно ниже, но не станет равным нулю.
LASSO регрессия:
L1 = (y-xβ) ^ 2 + λ∑ | β |
Решим это уравнение только для одного β на данный момент, и последнее вы можете обобщить на большее β:
Итак, (y-xβ) ^ 2 + λβ это наше уравнение для одного β, Здесь я рассмотрел + ve значение β.
Наша цель состоит в том, чтобы минимизировать приведенное выше уравнение, чтобы иметь возможность сделать это, приравнять его к нулю и принимать производные по β
Y ^ 2- 2xyβ + x ^ 2 β ^ 2 + λβ = 0 ------- Использование (ab) ^ 2
Частичные производные по отношению к
-2xy + 2x ^ 2β + λ = 0
2x ^ 2β + λ = 2xy
2x ^ 2β = 2х-λ
в заключение
β = (2xy-λ) / (2X ^ 2)
Если вы наблюдаете числитель, он станет нулевым, так как мы вычитаем некоторое значение λ (то есть гиперпараметр). И поэтому значение β будет установлено равным нулю.
источник