Понимание отрицательной регрессии гребня

12

Я ищу литературу об отрицательной регрессии гребня .

Короче говоря, это обобщение линейной регрессии гребня с использованием отрицательного значения в формуле оценки:У положительного случая есть хорошая теория: как функция потерь, как ограничение, как при Байесе до ... но я чувствую себя потерянным с отрицательной версией только с приведенной выше формулой. Это оказывается полезным для того, что я делаю, но я не могу понять это ясно.λ

β^=(XX+λI)1Xy.

Знаете ли вы какой-нибудь серьезный вводный текст об отрицательном гребне? Как это можно интерпретировать?

Бенуа Санчес
источник
1
Я не знаю ни одного вступительного текста, в котором говорится об этом, но этот источник может быть поучительным, особенно обсуждение внизу страницы 18: jstor.org/stable/4616538?seq=1#page_scan_tab_contents
Райан Симмонс,
1
В случае, если эта связь исчезнет в будущем, полная цитата будет: Björkström, A. & Sundberg, R. "Обобщенный взгляд на регрессию континуума". Скандинавский статистический журнал, 26: 1 (1999): сс.17-30
Райан Симмонс,
2
Большое спасибо. Это дает четкую интерпретацию гребня через CR, когда . (Наибольшее собственное значение ковариационной матрицы). Все еще ищу интерпретацию с ...λ<λ1λ>λ1
Бенуа Санчес
Обратите внимание, что в этом развитии регрессии хребтов из регуляризации Тихонова, регуляризация Тихонова становится для регрессии хребтов. Впоследствии обычно заменяется . Единственный способ сделать это отрицательным - сделать так, чтобы был мнимым, т. . Хорошо, что теперь? Куда ты хочешь пойти с этим? α 2 I α 2 λ α i = ΓTΓα2Iα2λαi=1
Карл
Отрицательный гребень упоминается здесь: stats.stackexchange.com/questions/328630/… с некоторыми ссылками
kjetil b halvorsen

Ответы:

12

Вот геометрическая иллюстрация того, что происходит с отрицательным гребнем.

Я рассмотрю оценки вида возникающие из функции потерьВот довольно стандартная иллюстрация того, что происходит в двумерном случае с . Нулевая лямбда соответствует решению OLS, бесконечная лямбда сокращает предполагаемую бета до нуля:

β^λ=(XX+λI)1Xy
Lλ=yXβ2+λβ2.
λ[0,)

введите описание изображения здесь

Теперь рассмотрим , что происходит , когда , где является наибольшим сингулярным значением . Для очень больших отрицательных лямбд, конечно, близка к нулю. Когда лямбда приближается к , член получает единичное значение, приближающееся к нулю, что означает, что обратное значение имеет одно единственное значение, идущее в минус бесконечность. Это единственное значение соответствует первому главному компоненту , поэтому в пределе можно получить указывающий в направлении PC1, но абсолютное значение растет до бесконечности.λ(,smax2)smaxXβ^λsmax2(XX+λI)Xβ^λ

Что действительно приятно, так это то, что его можно нарисовать на одной фигуре одинаковым образом: бета-версии задаются точками, где круги касаются эллипсов изнутри :

введите описание изображения здесь

Когда , применяется аналогичная логика, позволяющая продолжить путь гребня на другой стороне оценки OLS. Теперь круги касаются эллипсов снаружи. В предел, бета приближаются к направлению PC2 (но это происходит далеко за пределами этого эскиза):λ(smin2,0]

введите описание изображения здесь

Диапазон является чем-то вроде энергетической щели : оценки там не живут на одной кривой.(smax2,smin2)

ОБНОВЛЕНИЕ: В комментариях @MartinL объясняет, что для потеря не имеет минимума, но имеет максимум. И этот максимум дает . Вот почему та же геометрическая конструкция с касанием круга / эллипса продолжает работать: мы все еще ищем точки с нулевым градиентом. Когда , потеря действительно имеет минимум и определяется как , точно так же, как в обычной дело.λ<smax2Lλβ^λsmin2<λ0Lλβ^λλ>0

Но когда , потеря не имеет ни максимума, ни минимума; будет соответствовать седловой точке. Это объясняет «энергетический разрыв».smax2<λ<smin2Lλβ^λ


естественным образом вытекает из определенного ограниченного конька регрессии, см Предел «блок-дисперсионного» Хребет регрессионной оценки при . Это связано с тем, что в литературе по хемометрии известно как «континуальная регрессия», см. Мой ответ в связанной ветке.λ(,smax2)λ

можно рассматривать точно так же, как : функция потерь остается тем же самым и оценщик гребень обеспечивает его минимум.λ(smin2,0]λ>0

амеба говорит восстановить монику
источник
1
Спасибо за интересные графики. Когда , решение, представленное вами, является глобальным максимумом функции стоимости, а не глобальным минимумом. Точно так же, когда , вами точка должна быть седловой точкой функции стоимости. λ<smax2smax2<λ<0
Мартин Л
1
Рассмотрим только квадратичные члены в функции стоимости. Их можно записать как Пусть , тогда матрица в скобках имеет только отрицательные собственные значения. Пусть , и матрица имеет как положительные, так и отрицательные собственные значения. Эти собственные значения влияют на то, является ли точка седловой точкой, минимумом или максимумом функции стоимости.
βT(XTX+λI)β.
λ<smax2smax2<λ<0
Мартин Л
1
Это очень полезно, большое спасибо. Я обновил свой ответ.
говорит амеба: восстанови Монику
1
Спасибо. В частности, для осознания того, что седловая точка сохраняется, только когда . Когда , решение действительно все еще является глобальным минимумом с тех пор, положительно определен. Мой предыдущий комментарий был, таким образом, частично неверным. smax2<λ<smin2λ>smin2XTX+λI
Мартин Л