Я ищу литературу об отрицательной регрессии гребня .
Короче говоря, это обобщение линейной регрессии гребня с использованием отрицательного значения в формуле оценки:У положительного случая есть хорошая теория: как функция потерь, как ограничение, как при Байесе до ... но я чувствую себя потерянным с отрицательной версией только с приведенной выше формулой. Это оказывается полезным для того, что я делаю, но я не могу понять это ясно.
Знаете ли вы какой-нибудь серьезный вводный текст об отрицательном гребне? Как это можно интерпретировать?
regression
regularization
ridge-regression
Бенуа Санчес
источник
источник
Ответы:
Вот геометрическая иллюстрация того, что происходит с отрицательным гребнем.
Я рассмотрю оценки вида возникающие из функции потерьВот довольно стандартная иллюстрация того, что происходит в двумерном случае с . Нулевая лямбда соответствует решению OLS, бесконечная лямбда сокращает предполагаемую бета до нуля:
Теперь рассмотрим , что происходит , когда , где является наибольшим сингулярным значением . Для очень больших отрицательных лямбд, конечно, близка к нулю. Когда лямбда приближается к , член получает единичное значение, приближающееся к нулю, что означает, что обратное значение имеет одно единственное значение, идущее в минус бесконечность. Это единственное значение соответствует первому главному компоненту , поэтому в пределе можно получить указывающий в направлении PC1, но абсолютное значение растет до бесконечности.λ∈(−∞,−s2max) smax X β^λ −s2max (X⊤X+λI) X β^λ
Что действительно приятно, так это то, что его можно нарисовать на одной фигуре одинаковым образом: бета-версии задаются точками, где круги касаются эллипсов изнутри :
Когда , применяется аналогичная логика, позволяющая продолжить путь гребня на другой стороне оценки OLS. Теперь круги касаются эллипсов снаружи. В предел, бета приближаются к направлению PC2 (но это происходит далеко за пределами этого эскиза):λ∈(−s2min,0]
Диапазон является чем-то вроде энергетической щели : оценки там не живут на одной кривой.(−s2max,−s2min)
ОБНОВЛЕНИЕ: В комментариях @MartinL объясняет, что для потеря не имеет минимума, но имеет максимум. И этот максимум дает . Вот почему та же геометрическая конструкция с касанием круга / эллипса продолжает работать: мы все еще ищем точки с нулевым градиентом. Когда , потеря действительно имеет минимум и определяется как , точно так же, как в обычной дело.λ<−s2max Lλ β^λ −s2min<λ≤0 Lλ β^λ λ>0
Но когда , потеря не имеет ни максимума, ни минимума; будет соответствовать седловой точке. Это объясняет «энергетический разрыв».−s2max<λ<−s2min Lλ β^λ
естественным образом вытекает из определенного ограниченного конька регрессии, см Предел «блок-дисперсионного» Хребет регрессионной оценки при . Это связано с тем, что в литературе по хемометрии известно как «континуальная регрессия», см. Мой ответ в связанной ветке.λ∈(−∞,−s2max) λ→∞
можно рассматривать точно так же, как : функция потерь остается тем же самым и оценщик гребень обеспечивает его минимум.λ∈(−s2min,0] λ>0
источник