Интерпретация регуляризации гребня в регрессии

25

У меня есть несколько вопросов, касающихся штрафа за ребро в контексте наименьших квадратов:

βряdгезнак равно(λяD+Икс'Икс)-1Икс'Y

1) Выражение предполагает, что ковариационная матрица X сжимается в сторону диагональной матрицы, означая, что (при условии, что переменные стандартизируются до процедуры) корреляция между входными переменными будет снижена. Правильно ли это толкование?

2) Если это усадочное приложение, почему оно не сформулировано в строках (λID+(1λ)XX) , предполагая, что мы можем каким-то образом ограничить лямбду до [0,1] диапазона с нормализацией.

3) Что может быть нормализацией для λ чтобы ее можно было ограничить стандартным диапазоном, таким как [0,1].

4) Добавление константы к диагонали повлияет на все собственные значения. Было бы лучше атаковать только единичные или близкие к единственному значения? Это эквивалентно применению PCA к X и сохранению главных компонентов N до регрессии или у него другое имя (так как он не изменяет расчет кросс-ковариации)?

5) Можем ли мы регуляризировать кросс-ковариацию или она имеет какое-либо применение, то есть

βridge=(λID+XX)1(γXy)

где малое значение γ уменьшит перекрестную ковариацию. Очевидно, что это одинаково понижает все β s, но, возможно, есть более разумный способ, такой как жесткий / мягкий порог, в зависимости от значения ковариации.

Кагдас Озгенц
источник
IIRC хребет штраф приходит от ограничений , что β2T , посредством множителя Лагранжа на целевой функции СКО. LASSO такой же, но с |β|вместо. Я нахожусь на моем телефоне, поэтому я не могу легко опубликовать деривацию в данный момент. Но это великие вопросы
shadowtalker

Ответы:

19

Хорошие вопросы!

  1. Да, это точно правильно. Вы можете рассматривать штрафное ребро как один из возможных способов решения проблемы мультиколлинеарности, которая возникает, когда многие предикторы сильно коррелированы. Введение штрафа за гребень эффективно снижает эти корреляции.

  2. L=yXβ2+λβ2.
    λ=0ββridge
  3. Один из возможных способов нормализации - это масштабирование по полной дисперсии , т. Е. Использование вместо . Это не обязательно ограничит значением , но сделает его «безразмерным» и, вероятно, приведет к тому, что оптимальное значение будет меньше во всех практических случаях (примечание: это всего лишь предположение!).λtr(XX)λtr(XX)λλ[0,1]λ1

  4. «Атаковать только малые собственные значения» имеет отдельное имя и называется регрессией главных компонентов. Связь между ПЦР и регрессией гребня заключается в том, что в ПЦР вы фактически получаете «пошаговый штраф», отсекающий все собственные значения после определенного числа, тогда как регрессия гребня применяет «мягкий штраф», штрафующий все собственные значения, при этом меньшие штрафуются больше. Это хорошо объясняется в «Элементах статистического обучения » Hastie et al. (свободно доступно онлайн), раздел 3.4.1. См. Также мой ответ в « Отношения между регрессией гребня и регрессией PCA» .

  5. Я никогда не видел, чтобы это было сделано, но обратите внимание, что вы могли бы рассмотреть функцию стоимости в видеЭто уменьшает вашу не до нуля, а до некоторого другого заранее заданного значения . Если вы решите математику, вы получите оптимальное значение заданное что, возможно, можно рассматривать как «регуляризационную кросс-ковариацию»?

    L=yXβ2+λββ02.
    ββ0β
    β=(XX+λI)1(Xy+λβ0),
амеба говорит восстановить монику
источник
1
Не могли бы вы объяснить, почему добавление к X X означает, что ковариационная матрица X сжимается в сторону диагональной матрицы? Я полагаю, это вопрос чисто линейной алгебры. λIDXXX
Гейзенберг
3
@ Heisenberg, ну, - ковариационная матрица X (с точностью до 1 / N масштабного коэффициента). Вычисление β требует обращения этой ковариационной матрицы. В регрессии гребня вместо этого мы инвертируем X X + λ I , поэтому можно видеть X X + λ I как регуляризованную оценку ковариационной матрицы. Теперь член λ I является диагональной матрицей с λ на диагонали. Представьте, что λ очень велико; тогда в сумме преобладает диагональный член λXXX1/NβXX+λIXX+λIλIλλ , и поэтому регуляризованная ковариация становится все более и более диагональной с ростом λ . λIλ
говорит амеба: восстанови Монику
В отношении Q5, Элементы статистического обучения рассматривают ограничения гладкости для приложений обработки изображений (PDA - стр. 447)
seanv507
10

Дополнительный комментарий к вопросу 4. На самом деле, регрессия гребня довольно эффективно справляется с малыми собственными значениями то время как в основном оставляются только большие собственные значения. XTX

Чтобы увидеть это, выразите оценку регрессии гребня через разложение по сингулярному значению , X

X=i=1nσiuiviT

где векторы взаимно ортогональны, а векторы v i также взаимно ортогональны. Здесь собственными значениями X T X являются σ 2 i , i = 1 , 2 , , n . uiviXTXσi2i=1,2,,n

Тогда вы можете показать, что

βridge=i=1nσi2σi2+λ1σi(uiTy)vi.

Теперь рассмотрим «факторы фильтра» . Если λ = 0 , то коэффициенты фильтрации равны 1, и мы получаем стандартное решение наименьших квадратов. Если λ > 0 и σ 2 iλ , то коэффициент фильтрации по существу равен 1. Если σ 2 iλ , то этот коэффициент по существу равен 0. Таким образом, слагаемые, соответствующие малым собственным значениям, эффективно выпадают, а слагаемые, соответствующие большие собственные значения сохраняются. σi2/(σi2+λ)λ=0λ>0σi2λσi2λ

Для сравнения, регрессия главных компонентов просто использует коэффициенты 1 (для больших собственных значений) или 0 (для меньших собственных значений, которые отбрасываются) в этой формуле.

Брайан Борхерс
источник
1
Это именно то, что я кратко упомянул в своем ответе, но очень приятно, чтобы он был разработан и продемонстрирован математически, +1.
говорит амеба: восстанови Монику
5

Вопросы 1, 2 и 3 связаны между собой. Мне нравится думать , что да, введение штрафа Ридж в модели линейной регрессии можно интерпретировать как усадка О собственных значениях . Чтобы сделать эту интерпретацию, сначала нужно сделать предположение, что X центрирован. Эта интерпретация основана на следующей эквивалентности: λ x + y = κ ( α x + ( 1 - α ) y ) , причем α = λИксИкс

λИкс+Yзнак равноκ(αИкс+(1-α)Y),
иκ=1+λ. Если0λ<+, то сразу следует, что0<α1.α=λ1+λκ=1+λ0λ<+0<α1

Техника, которую вы описываете как «атака [использующая] только особые или близкие к единственному значения», также известна как анализ сингулярного спектра (с целью линейной регрессии) (см. Уравнение 19), если под «атакой» вы подразумеваете «удаление ». Кросс-ковариация неизменна.

Удаление низких значений единственного числа также выполняется с помощью регрессии главных компонентов . В ПЦР PCA выполняется для а линейная регрессия применяется для выбора полученных компонентов. Разница с SSA заключается в том, что он влияет на кросс-ковариацию.X

Винсент Гийемот
источник
Спасибо. В ПЦР ковариация с y вычисляется после того, как выполняется уменьшение размерности, нет? В этом ли разница между PCR и SSA? Ваша гамма (не моя), как вы выбираете, чтобы альфа была [0,1] ограниченной?
Кагдас Озгенц
1
Извините за этот запутанный , я заменяю его на κ . γκ
Винсент Гийемот
Я думаю, что вы правы в отношении разницы между SSA и PCR, однако мы должны записать это, чтобы быть уверенными.
Винсент Гийемот