В каких именно условиях регрессия гребня способна обеспечить улучшение по сравнению с обычной регрессией наименьших квадратов?

16

Хребетная регрессия оценивает параметры в линейной модели by где - параметр регуляризации. Хорошо известно, что он часто работает лучше, чем регрессия OLS (с ), когда существует много коррелированных предикторов.у = Х & beta ; & beta ; А , = ( ХХ + А , I ) - 1 ху , А , А , = 0βy=Xβ

β^λ=(XX+λI)1Xy,
λλ=0

Теорема существования регрессионного гребня гласит, что всегда существует параметр λ>0 такой, что среднеквадратичная ошибка β^λ строго меньше среднеквадратичной ошибки OLS оценка β^OLS=β^0 . Другими словами, оптимальное значение λ всегда ненулевое. Это было, очевидно, впервые доказано в Hoerl and Kennard, 1970 и повторяется во многих заметках к лекциям, которые я нахожу в Интернете (например, здесь и здесь ). Мой вопрос о предположениях этой теоремы:

  1. Есть ли предположения о ковариационной матрице XX ?

  2. Есть ли предположения о размерности X ?

В частности, остается ли теорема верной, если предикторы ортогональны (т. XX диагональна) или даже если XX=I ? И все еще верно, если есть только один или два предиктора (скажем, один предиктор и перехват)?

Если теорема не делает таких предположений и остается верной даже в этих случаях, то почему регрессия гребня обычно рекомендуется только в случае коррелированных предикторов и никогда (?) Не рекомендуется для простой (то есть не множественной) регрессии?


Это связано с моим вопросом о едином взгляде на усадку: какова связь (если таковая имеется) между парадоксом Штейна, регрессией гребня и случайными эффектами в смешанных моделях? Но пока нет ответов, проясняю этот момент до сих пор.

амеба говорит восстановить монику
источник
1
Похоже, что все, кроме последнего вопроса, непосредственно рассматриваются в статье Хёрла и Кеннарда, особенно в первом предложении Введения и первом предложении Заключений. На последний вопрос можно ответить, отметив, что ковариация между постоянным вектором и любым единственным предиктором всегда равна нулю, что позволяет (стандартным образом) уменьшить до матрицы . 1×1XX1×1
whuber
1
Спасибо, @whuber. Я верю, что статья Hoerl & Kennard отвечает на мои вопросы (по крайней мере, технические) - нужно уметь следовать доказательству и проверять предположения (я еще этого не сделал). Но я не полностью убежден предложениями, на которые вы ссылаетесь. Как первое предложение вступления связано с моим вопросом? Первое предложение Заключений предполагает, что если имеет равномерный спектр (например, равен ), то эта теорема неприменима. Но я не уверен на 100%, так как не вижу этого предположения, явно сформулированного до доказательства. IXXI
говорит амеба: восстанови Монику
Посмотрите, какие вопросы могут задавать пользователи с высоким уровнем репутации (которые обычно только отвечают на них) (и аналогично для вашего другого связанного вопроса, который прислал мне здесь stats.stackexchange.com/questions/122062/… !
javadba

Ответы:

11

Ответы на 1 и 2 - нет, но необходима осторожность при интерпретации теоремы существования.

Дисперсия хребта Оценщик

Пусть - оценка гребня при штрафе k , и пусть β - истинный параметр для модели Y = X β + ϵ . Пусть λ 1 , ... , λ р собственные значения X T X . Из уравнений 4.2-4.5 Хёрла и Кеннарда риск (в терминах ожидаемой нормы L 2 ошибки) равенβ^kβY=Xβ+ϵλ1,,λpXTX
L2

где, насколько я могу судить, ( X T X+k I p ) -2= ( X T X+k I p ) -1 ( X T X+k I p ) -1. Они отмечают, чтоγ1имеет интерпретацию дисперсии внутреннего произведения ^ β -β, аγ2

E([β^β]T[β^β])=σ2j=1pλj/(λj+k)2+k2βT(XTX+kIp)2β=γ1(k)+γ2(k)=R(k)
(XTX+kIp)2=(XTX+kIp)1(XTX+kIp)1.γ1β^βγ2 является внутренним продуктом смещения.

Предположим, что , тогда R ( k ) = p σ 2 + k 2 β T βXTX=Ip Пусть R(k)=2k(1+k)βTβ-(pσ2+k2βTβ)

R(k)=pσ2+k2βTβ(1+k)2.
- производная от риска w / r / tk. Поскольку limk0+R(k)=-2pσ2<0, мы заключаем, что существует некотороеk>0такое, чтоR(k)<R(0).
R(k)=2k(1+k)βTβ(pσ2+k2βTβ)(1+k)3
klimk0+R(k)=2pσ2<0k>0R(k)<R(0)

Авторы отмечают , что ортогональность это лучшее , что вы можете надеяться в плане риска при , и что , как условие числа X T X возрастает, Нт к 0 + R ' ( K ) приближается - .k=0XTXlimk0+R(k)

Комментарий

Здесь, по-видимому, существует парадокс: если и X постоянен, то мы просто оцениваем среднее значение последовательности нормальных ( β , σ 2 ) переменных, и мы знаем, что несмещенная оценка ванили допустима в этот случай. Это решается, если заметить, что приведенные выше рассуждения просто предусматривают, что для фиксированного β T β существует минимальное значение k . Но для любого k мы можем увеличить риск, сделав β T β большим, поэтому один только этот аргумент не показывает допустимости для оценки гребня.p=1X(β,σ2)kβTβkβTβ

Почему регрессия гребня обычно рекомендуется только в случае коррелированных предикторов?

βTβXTXβEYX Подозрительно - большая ковариационная матрица является симптомом этого.

Но если ваша цель - исключительно предсказание, логические проблемы больше не действуют, и у вас есть веские аргументы в пользу использования какого-либо рода оценки усадки.

Андрей М
источник
2
βkkk=0
2
XX
3
β^=Zβ^β^Z=((XTX)1+kIp)1XTXkβ^0βTβ
3
λ