Доказательство коэффициентов сжатия с помощью регрессии гребня посредством «спектрального разложения»

20

Я понял, как регрессия гребня сжимает коэффициенты геометрически к нулю. Более того, я знаю, как доказать это в специальном «ортонормированном случае», но я не совсем понимаю, как это работает в общем случае с помощью «спектральной декомпозиции».

jeza
источник
4
Вы заявили, что смущены, но каков ваш вопрос?
whuber

Ответы:

30

Вопрос, кажется, требует демонстрации того, что Ридж-регрессия сжимает оценки коэффициентов до нуля, используя спектральное разложение. Спектральное разложение можно понимать как простое следствие разложения по сингулярным числам (SVD). Поэтому этот пост начинается с SVD. Это объясняет это в простых терминах, а затем иллюстрирует это важными приложениями. Затем он предоставляет запрашиваемую (алгебраическую) демонстрацию. (Алгебра, конечно, идентична геометрической демонстрации; она просто представлена ​​на другом языке.)

Первоначальный источник этого ответа можно найти в моих заметках о регрессионном курсе . Эта версия исправляет некоторые незначительные ошибки.


Что такое СВД

Любая матрица с может быть записана как гдеX p n X = U D V n×pXpn

X=UDV
  1. n × pU является матрицей .n×p

    • Столбцы имеют длину .1U1
    • Столбцы взаимно ортогональны.U
    • Они называются главными компонентами из .X
  2. p × pV является матрицей .p×p

    • Столбцы имеют длину .1V1
    • Столбцы взаимно ортогональны.V
    • Это делает на вращение в .р рVRp
  3. p × pD - диагональная матрица .p×p

    • Диагональные элементы не являются отрицательными. Эти особые значения из . Xd11,d22,,dppX
    • Если мы хотим, мы можем заказать их от самого большого до самого маленького.

Критерии (1) и (2) утверждают, что и и являются ортонормированными матрицами. Их можно аккуратно суммировать по условиямVUV

UU=1p, VV=1p.

Как следствие (то, что представляет вращение), также. Это будет использовано при выводе регрессии хребта ниже.V V = 1 рVVV=1p

Что это делает для нас

Это может упростить формулы. Это работает как алгебраически, так и концептуально. Вот несколько примеров.

Нормальные уравнения

Рассмотрим регрессию где, как обычно, независимы и одинаково распределены по закону с нулевым ожиданием и конечной дисперсией . Решение наименьших квадратов с помощью нормальных уравнений: Применение SVD и упрощение получающегося алгебраического беспорядка (что легко) дает хорошее понимание:epsi ; сг 2 β = ( Х ' х ) - 1 х ' у .y=Xβ+εεσ2

β^=(XX)1Xy.

(XX)1X=((UDV)(UDV))1(UDV)=(VDUUDV)1(VDU)=VD2VVDU=VD1U.

Единственная разница между этим и заключается в том, что используются обратные значения элементов ! Другими словами, «уравнение» решается путем «инвертирования» : эта псевдообращение отменяет вращения и (просто путем их транспонирования) и отменяет умножение (представленное ) отдельно в каждом главном направлении. D y = X β X U V DX=VDUDy=XβXUVD

Для дальнейшего использования обратите внимание, что «повернутые» оценки являются линейными комбинациями «повернутых» ответов . Коэффициенты являются инверсиями (положительных) диагональных элементов , равных . β ¯u ' у D D - 1 я яVβ^UyDdii1

Ковариация оценок коэффициента

Напомним, что ковариация оценок равна Используя SVD, это становится Другими словами, ковариация действует так же, как и у ортогональных переменных, каждая с дисперсией , которые были повернуты в .σ 2 ( V D 2 V ) - 1 =

Cov(β^)=σ2(XX)1.
k d 2 i i R k
σ2(VD2V)1=σ2VD2V.
k dii2Rk

Шляпная матрица

Шляпная матрица имеет видС помощью предыдущего результата мы можем переписать его какПросто!H=(UD V )(V D - 1 U )=U U .

H=X(XX)1X.
H=(UDV)(VD1U)=UU.

Собственный анализ (спектральное разложение)

Поскольку и немедленно X X ' = U D V ' V D U ' = U D 2 U ' ,

XX=VDUUDV=VD2V
XX=UDVVDU=UD2U,
  • Собственные значения и являются квадратами сингулярных значений.X X 'XXXX
  • Столбцы являются собственными векторами .X XVXX
  • Столбцы являются некоторыми из собственных векторов . (Другие собственные векторы существуют, но соответствуют нулевым собственным значениям.)X X UXX

SVD может диагностировать и решать проблемы коллинеарности.

Аппроксимация регрессоров

Когда вы заменяете наименьшие единичные значения нулями, вы изменяете произведение лишь незначительно. Теперь, однако, нули исключают соответствующие столбцы , эффективно уменьшая количество переменных. При условии, что эти исключенные столбцы имеют небольшую корреляцию с , это может эффективно работать как метод сокращения переменных. U yUDVUy

Хребет регрессии

Пусть столбцы будут стандартизированы так же, как сам . (Это означает, что нам больше не нужен постоянный столбец в ) Для оценщик гребня равен у Х λ > 0 β RXyXλ>0

β^R=(XX+λ)1Xy=(VD2V+λ1p)1VDUy=(VD2V+λVV)1VDUy=(V(D2+λ)V)1VDUy=V(D2+λ)1VVDUy=V(D2+λ)1DUy.

Разница между этим и является замена по . β^D1=D2D(D2+λ)1DПо сути, это умножает оригинал на долю . Поскольку (когда ) знаменатель явно больше числителя, оценки параметров «сжимаются к нулю».D2/(D2+λ)λ>0


Этот результат следует понимать в несколько утонченном смысле, на который мы ссылались ранее: повернутые оценки по-прежнему представляют собой линейные комбинации векторов , но каждый коэффициент - который раньше был - умножено на коэффициент . Таким образом, повернутые коэффициенты должны уменьшаться, но возможно, когда достаточно мал, чтобы некоторые из фактически увеличились в размере. β R ¯u ' у д - 1Vβ^RUydii1dii2/(dii2+λ)λβ^R

Чтобы избежать отвлекающих факторов, в этом обсуждении был исключен случай с одним или несколькими нулевыми значениями. В таких обстоятельствах, если мы обычно принимаем « » равным нулю,dii1 тогда все по-прежнему работает. Это то, что происходит, когда обобщенные инверсии используются для решения нормальных уравнений.

Whuber
источник
1
@Glen_b Это хороший момент: мне нужно было четко указать, какую долю я обдумываю! Я исправлю это.
whuber
1
(1) Часть уравнения утверждает, что скалярное произведение каждого столбца на себя равно , откуда каждая длина (по определению) . (2) следует из наблюдения, что является матрицей вращения, поскольку это означает, что также является матрицей вращения. Следовательно . Включение дает . UU=1pU1VV=1pVV - 1 (V - 1 )(V - 1 )=1pV - 1 =VVV=(V)V=1p1=1VV=1pVV1(V1)(V1)=1pV1=VVV=(V)V=1p
whuber
1
@Vimal Спасибо за хорошее предложение. Теперь я включил объяснение в раздел «Нормальные уравнения», где представлена ​​модель регрессии.
whuber
1
Когда симметричен, то по определению Сравнивая левую и правую стороны немедленно показывает диагонализация реальной симметричной матрицы является частным случаем СВД , а также предполагает , что в СВД симметричной матрицы, . Это на самом деле так, если невырожден, но доказывает, что это не совсем элементарно, поэтому я не буду вдаваться в подробности. V D U = X = X = U D VXU = V X
VDU=X=X=UDV.
U=VX
whuber
1
@ ааааа, а это так? В подобранном значении мы будем использовать оценки коэффициентов, и до тех пор, пока они будут уменьшены до нуля, то же самое произойдет для подобранного значения. y^
Джеза