В непенализованной регрессии вы часто можете получить гребень * в пространстве параметров, где многие различные значения вдоль гребня все работают так же хорошо или почти так же по критерию наименьших квадратов.
* (по крайней мере, это хребет в функции правдоподобия - на самом деле они равны $ в критерии RSS, но я буду продолжать называть это хребтом, как это кажется обычным - или даже, как указывает Алексис в комментариях я мог бы назвать это тальвегом , являющимся аналогом горного хребта долины)
При наличии гребня в критерии наименьших квадратов в пространстве параметров, штраф, который вы получаете с помощью регрессии гребня, избавляет от этих гребней, подталкивая критерий вверх, когда параметры отклоняются от начала координат:
[ Более четкое изображение ]
На первом графике большое изменение значений параметров (вдоль гребня) приводит к незначительному изменению критерия RSS. Это может вызвать числовую нестабильность; он очень чувствителен к небольшим изменениям (например, крошечное изменение значения данных, даже усечение или ошибка округления). Оценки параметров практически идеально коррелированы. Вы можете получить оценки параметров, которые очень велики по величине.
В отличие от этого, подняв значение, которое сводит к минимуму регрессия гребня (добавляя штраф ), когда параметры далеки от 0, небольшие изменения условий (например, небольшая ошибка округления или усечения) не могут привести к гигантским изменениям в результирующем По оценкам. Срок штрафа приводит к уменьшению до 0 (что приводит к некоторому смещению). Небольшое отклонение может значительно улучшить дисперсию (устраняя этот гребень).L2
Неопределенность оценок уменьшается (стандартные ошибки обратно связаны со второй производной, которая увеличивается за счет штрафа).
Корреляция в оценках параметров снижена. Теперь вы не получите оценки параметров, которые очень велики по величине, если RSS для небольших параметров не будет намного хуже.
+1 к иллюстрации Glen_b и комментариям статистики по оценке хребта. Я просто хотел бы добавить чисто математическую (линейную алгебру) pov к регрессии Риджа, которая отвечает на вопросы ОП) 1) и 2).
Прежде всего отметим, что - это симметричная положительная полуопределенная матрица - кратная выборочная ковариационная матрица. Следовательно, он имеет собственное разложениеp × p nX′X p×p n
Теперь, поскольку матричная инверсия соответствует инверсии собственных значений, для оценки OLS требуется (обратите внимание, что ). Очевидно, это работает, только если все собственные значения строго больше нуля, . Для это невозможно; для это в целом верно - это то, где мы обычно имеем дело с мультиколлинеарностью .V ' = V - 1 д я > 0 р » п п » р(X′X)−1=VD−1V′ V′=V−1 di>0 p≫n n≫p
Как статистики мы также хотим знать, как небольшие возмущения в данных изменяют оценки. Ясно, что небольшое изменение в любом приводит к огромному изменению в если очень мало.d i 1 / d i d iX di 1/di di
Итак, что делает регрессия Риджа, так это сдвигает все собственные значения дальше от нуля как
Числовая стабильность связана с усадкой до нуля, так как они оба являются следствием добавления положительной постоянной к собственным значениям: это делает ее более устойчивой, потому что небольшое возмущение в не слишком сильно меняет обратное; он сжимает его близко к поскольку теперь член умножается на что ближе к нулю, чем решение OLS с обратными собственными значениями .0 V - 1 X ′ y 1 / ( d i + λ ) 1 / dX 0 V−1X′y 1/(di+λ) 1/d
источник
Демонстрация @ Glen_b замечательная. Я хотел бы просто добавить, что помимо точной причины проблемы и описания того, как работает квадратичная штрафная регрессия, есть суть в том, что штрафование имеет чистый эффект уменьшения коэффициентов, отличных от перехвата, до нуля. Это обеспечивает прямое решение проблемы переоснащения, которая присуща большинству регрессионных анализов, когда размер выборки невелик по сравнению с оценкой количества параметров. Практически любое наказание в сторону нуля за отсутствие перехватов будет способствовать повышению точности прогнозирования по сравнению с моделью без штрафных санкций.
источник