Почему оценка гребня становится лучше, чем OLS, добавляя константу к диагонали?

59

Я понимаю, что оценка регрессии гребня является β который минимизирует остаточную сумму квадрата и штраф на размер β

βridge=(λID+XX)1Xy=argmin[RSS+λβ22]

Однако я не до конца понимаю значение того факта, что βridge отличается от βOLS только добавлением небольшой константы к диагонали XX . На самом деле,

βOLS=(XX)1Xy
  1. В моей книге упоминается, что это делает оценку более стабильной в численном отношении - почему?

  2. Связана ли численная стабильность с усадкой в ​​сторону 0 от оценки гребня или это просто совпадение?

Гейзенберг
источник

Ответы:

76

В непенализованной регрессии вы часто можете получить гребень * в пространстве параметров, где многие различные значения вдоль гребня все работают так же хорошо или почти так же по критерию наименьших квадратов.

* (по крайней мере, это хребет в функции правдоподобия - на самом деле они равны $ в критерии RSS, но я буду продолжать называть это хребтом, как это кажется обычным - или даже, как указывает Алексис в комментариях я мог бы назвать это тальвегом , являющимся аналогом горного хребта долины)

При наличии гребня в критерии наименьших квадратов в пространстве параметров, штраф, который вы получаете с помощью регрессии гребня, избавляет от этих гребней, подталкивая критерий вверх, когда параметры отклоняются от начала координат:

введите описание изображения здесь
[ Более четкое изображение ]

На первом графике большое изменение значений параметров (вдоль гребня) приводит к незначительному изменению критерия RSS. Это может вызвать числовую нестабильность; он очень чувствителен к небольшим изменениям (например, крошечное изменение значения данных, даже усечение или ошибка округления). Оценки параметров практически идеально коррелированы. Вы можете получить оценки параметров, которые очень велики по величине.

В отличие от этого, подняв значение, которое сводит к минимуму регрессия гребня (добавляя штраф ), когда параметры далеки от 0, небольшие изменения условий (например, небольшая ошибка округления или усечения) не могут привести к гигантским изменениям в результирующем По оценкам. Срок штрафа приводит к уменьшению до 0 (что приводит к некоторому смещению). Небольшое отклонение может значительно улучшить дисперсию (устраняя этот гребень).L2

Неопределенность оценок уменьшается (стандартные ошибки обратно связаны со второй производной, которая увеличивается за счет штрафа).

Корреляция в оценках параметров снижена. Теперь вы не получите оценки параметров, которые очень велики по величине, если RSS для небольших параметров не будет намного хуже.

Glen_b
источник
4
Этот ответ действительно помогает мне понять усадку и числовую стабильность. Тем не менее, мне все еще неясно, как «добавление небольшой константы в » позволяет достичь этих двух вещей. XX
Гейзенберг,
4
Добавление константы к диагонали * равнозначно добавлению круглого параболоида с центром в к RSS (результат, показанный выше - он «оттягивается» от нуля - устраняя гребень). * (это не обязательно маленький, это зависит от того, как вы на это смотрите и сколько вы добавили)0
Glen_b
6
Glen_b антоним «хребта» в английском языке, который вы ищете (этот путь / кривая вдоль дна долины) - thalweg . Который я только что узнал около двух недель назад и просто обожаю. Он даже не звучит как английское слово! : D
Алексис
5
@Alexis Это, без сомнения, будет удобным словом, так что спасибо за это. Вероятно, это не звучит по-английски, потому что это немецкое слово (на самом деле thal - это то же «thal», что и в « Neanderthal » = «Neander valley», а weg = «way»). [Как это было, я хотел «гребень» не потому, что не мог придумать, как это назвать, а потому, что люди, кажется, называют это гребнем, независимо от того, смотрят ли они на вероятность или RSS, и я объяснял свое желание следовать конвенция, хотя это кажется странным. Thalweg был бы отличным выбором для правильного слова, если бы я не следовал странному thalweg соглашения.]
Glen_b
4
X становится близким к матрице не полного ранга (и, следовательно, X'X становится почти единичным) именно тогда , когда в вероятности появляется гребень. Гребень является прямым следствием почти линейной взаимосвязи между столбцами , что делает s (почти) линейно зависимой. Xβ
Glen_b
28

+1 к иллюстрации Glen_b и комментариям статистики по оценке хребта. Я просто хотел бы добавить чисто математическую (линейную алгебру) pov к регрессии Риджа, которая отвечает на вопросы ОП) 1) и 2).

Прежде всего отметим, что - это симметричная положительная полуопределенная матрица - кратная выборочная ковариационная матрица. Следовательно, он имеет собственное разложениеp × p nXXp×pn

XX=VDV,D=[d1dp],di0

Теперь, поскольку матричная инверсия соответствует инверсии собственных значений, для оценки OLS требуется (обратите внимание, что ). Очевидно, это работает, только если все собственные значения строго больше нуля, . Для это невозможно; для это в целом верно - это то, где мы обычно имеем дело с мультиколлинеарностью .V ' = V - 1 д я > 0 р » п п » р(XX)1=VD1VV=V1di>0pnnp

Как статистики мы также хотим знать, как небольшие возмущения в данных изменяют оценки. Ясно, что небольшое изменение в любом приводит к огромному изменению в если очень мало.d i 1 / d i d iXdi1/didi

Итак, что делает регрессия Риджа, так это сдвигает все собственные значения дальше от нуля как

XX+λIp=VDV+λIp=VDV+λVV=V(D+λIp)V,
который теперь имеет собственные значения . Вот почему выбор положительного параметра штрафа делает матрицу обратимой - даже в случае . Для регрессии Риджа небольшое изменение в данных больше не оказывает крайне нестабильного влияния на матричную инверсию.di+λλ0pnX

Числовая стабильность связана с усадкой до нуля, так как они оба являются следствием добавления положительной постоянной к собственным значениям: это делает ее более устойчивой, потому что небольшое возмущение в не слишком сильно меняет обратное; он сжимает его близко к поскольку теперь член умножается на что ближе к нулю, чем решение OLS с обратными собственными значениями .0 V - 1 X y 1 / ( d i + λ ) 1 / dX0V1Xy1/(di+λ)1/d

Георг М. Горг
источник
2
Этот ответ удовлетворительно отвечает на алгебраическую часть моего вопроса! Вместе с ответом Glen_b он дает полное объяснение проблемы.
Гейзенберг
17

Демонстрация @ Glen_b замечательная. Я хотел бы просто добавить, что помимо точной причины проблемы и описания того, как работает квадратичная штрафная регрессия, есть суть в том, что штрафование имеет чистый эффект уменьшения коэффициентов, отличных от перехвата, до нуля. Это обеспечивает прямое решение проблемы переоснащения, которая присуща большинству регрессионных анализов, когда размер выборки невелик по сравнению с оценкой количества параметров. Практически любое наказание в сторону нуля за отсутствие перехватов будет способствовать повышению точности прогнозирования по сравнению с моделью без штрафных санкций.

Фрэнк Харрелл
источник