Я понял, как регрессия гребня сжимает коэффициенты геометрически к нулю. Более того, я знаю, как доказать это в специальном «ортонормированном случае», но я не совсем понимаю, как это работает в общем случае с помощью «спектральной декомпозиции».
20
Ответы:
Вопрос, кажется, требует демонстрации того, что Ридж-регрессия сжимает оценки коэффициентов до нуля, используя спектральное разложение. Спектральное разложение можно понимать как простое следствие разложения по сингулярным числам (SVD). Поэтому этот пост начинается с SVD. Это объясняет это в простых терминах, а затем иллюстрирует это важными приложениями. Затем он предоставляет запрашиваемую (алгебраическую) демонстрацию. (Алгебра, конечно, идентична геометрической демонстрации; она просто представлена на другом языке.)
Первоначальный источник этого ответа можно найти в моих заметках о регрессионном курсе . Эта версия исправляет некоторые незначительные ошибки.
Что такое СВД
Любая матрица с может быть записана как гдеX p ≤ n X = U D V ′n×p X p≤n
n × pU является матрицей .n×p
p × pV является матрицей .p×p
p × pD - диагональная матрица .p×p
Критерии (1) и (2) утверждают, что и и являются ортонормированными матрицами. Их можно аккуратно суммировать по условиямVU В
Как следствие (то, что представляет вращение), также. Это будет использовано при выводе регрессии хребта ниже.V V ′ = 1 рВ ВВ'= 1п
Что это делает для нас
Это может упростить формулы. Это работает как алгебраически, так и концептуально. Вот несколько примеров.
Нормальные уравнения
Рассмотрим регрессию где, как обычно, независимы и одинаково распределены по закону с нулевым ожиданием и конечной дисперсией . Решение наименьших квадратов с помощью нормальных уравнений: Применение SVD и упрощение получающегося алгебраического беспорядка (что легко) дает хорошее понимание:epsi ; сг 2 β = ( Х ' х ) - 1 х ' у .Y= Xβ+ ε ε σ2
Единственная разница между этим и заключается в том, что используются обратные значения элементов ! Другими словами, «уравнение» решается путем «инвертирования» : эта псевдообращение отменяет вращения и (просто путем их транспонирования) и отменяет умножение (представленное ) отдельно в каждом главном направлении. D y = X β X U V ′ DИкс'= VD U' D Y= Xβ Икс U В' D
Для дальнейшего использования обратите внимание, что «повернутые» оценки являются линейными комбинациями «повернутых» ответов . Коэффициенты являются инверсиями (положительных) диагональных элементов , равных . β ¯u ' у D D - 1 я яВ'β^ U'Y D d- 1я я
Ковариация оценок коэффициента
Напомним, что ковариация оценок равна Используя SVD, это становится Другими словами, ковариация действует так же, как и у ортогональных переменных, каждая с дисперсией , которые были повернуты в .σ 2 ( V D 2 V ′ ) - 1 =
Шляпная матрица
Шляпная матрица имеет видС помощью предыдущего результата мы можем переписать его какПросто!H=(UD V ′ )(V D - 1 U ′ )=U U ′ .
Собственный анализ (спектральное разложение)
Поскольку и немедленно X X ' = U D V ' V D U ' = U D 2 U ' ,
SVD может диагностировать и решать проблемы коллинеарности.
Аппроксимация регрессоров
Когда вы заменяете наименьшие единичные значения нулями, вы изменяете произведение лишь незначительно. Теперь, однако, нули исключают соответствующие столбцы , эффективно уменьшая количество переменных. При условии, что эти исключенные столбцы имеют небольшую корреляцию с , это может эффективно работать как метод сокращения переменных. U yUD V' U Y
Хребет регрессии
Пусть столбцы будут стандартизированы так же, как сам . (Это означает, что нам больше не нужен постоянный столбец в ) Для оценщик гребня равен у Х λ > 0 β RИкс Y Икс λ > 0
Разница между этим и является замена по .β^ D- 1= D- 2D ( D2+ λ )- 1D По сути, это умножает оригинал на долю . Поскольку (когда ) знаменатель явно больше числителя, оценки параметров «сжимаются к нулю».D2/ ( D2+ λ ) λ > 0
Этот результат следует понимать в несколько утонченном смысле, на который мы ссылались ранее: повернутые оценки по-прежнему представляют собой линейные комбинации векторов , но каждый коэффициент - который раньше был - умножено на коэффициент . Таким образом, повернутые коэффициенты должны уменьшаться, но возможно, когда достаточно мал, чтобы некоторые из фактически увеличились в размере. β R ¯u ' у д - 1В'β^р U'Y d- 1я я d2ii/(d2ii+λ) λ β^R
Чтобы избежать отвлекающих факторов, в этом обсуждении был исключен случай с одним или несколькими нулевыми значениями. В таких обстоятельствах, если мы обычно принимаем « » равным нулю,d−1ii тогда все по-прежнему работает. Это то, что происходит, когда обобщенные инверсии используются для решения нормальных уравнений.
источник