Хребетная регрессия оценивает параметры в линейной модели by где - параметр регуляризации. Хорошо известно, что он часто работает лучше, чем регрессия OLS (с ), когда существует много коррелированных предикторов.у = Х & beta ; & beta ; А , = ( Х ⊤ Х + А , I ) - 1 х ⊤ у , А , А , = 0
Теорема существования регрессионного гребня гласит, что всегда существует параметр такой, что среднеквадратичная ошибка строго меньше среднеквадратичной ошибки OLS оценка . Другими словами, оптимальное значение всегда ненулевое. Это было, очевидно, впервые доказано в Hoerl and Kennard, 1970 и повторяется во многих заметках к лекциям, которые я нахожу в Интернете (например, здесь и здесь ). Мой вопрос о предположениях этой теоремы:
Есть ли предположения о ковариационной матрице ?
Есть ли предположения о размерности ?
В частности, остается ли теорема верной, если предикторы ортогональны (т. диагональна) или даже если ? И все еще верно, если есть только один или два предиктора (скажем, один предиктор и перехват)?
Если теорема не делает таких предположений и остается верной даже в этих случаях, то почему регрессия гребня обычно рекомендуется только в случае коррелированных предикторов и никогда (?) Не рекомендуется для простой (то есть не множественной) регрессии?
Это связано с моим вопросом о едином взгляде на усадку: какова связь (если таковая имеется) между парадоксом Штейна, регрессией гребня и случайными эффектами в смешанных моделях? Но пока нет ответов, проясняю этот момент до сих пор.
источник
Ответы:
Ответы на 1 и 2 - нет, но необходима осторожность при интерпретации теоремы существования.
Дисперсия хребта Оценщик
Пусть - оценка гребня при штрафе k , и пусть β - истинный параметр для модели Y = X β + ϵ . Пусть λ 1 , ... , λ р собственные значения X T X . Из уравнений 4.2-4.5 Хёрла и Кеннарда риск (в терминах ожидаемой нормы L 2 ошибки) равенβ∗^ k β Y=Xβ+ϵ λ1,…,λp XTX
L2
где, насколько я могу судить, ( X T X+k I p ) -2= ( X T X+k I p ) -1 ( X T X+k I p ) -1. Они отмечают, чтоγ1имеет интерпретацию дисперсии внутреннего произведения ^ β ∗ -β, аγ2
Предположим, что , тогда R ( k ) = p σ 2 + k 2 β T βXTX=Ip
Пусть
R′(k)=2k(1+k)βTβ-(pσ2+k2βTβ)
Авторы отмечают , что ортогональность это лучшее , что вы можете надеяться в плане риска при , и что , как условие числа X T X возрастает, Нт к → 0 + R ' ( K ) приближается - ∞ .k=0 XTX limk→0+R′(k) −∞
Комментарий
Здесь, по-видимому, существует парадокс: если и X постоянен, то мы просто оцениваем среднее значение последовательности нормальных ( β , σ 2 ) переменных, и мы знаем, что несмещенная оценка ванили допустима в этот случай. Это решается, если заметить, что приведенные выше рассуждения просто предусматривают, что для фиксированного β T β существует минимальное значение k . Но для любого k мы можем увеличить риск, сделав β T β большим, поэтому один только этот аргумент не показывает допустимости для оценки гребня.p=1 X (β,σ2) k βTβ k βTβ
Почему регрессия гребня обычно рекомендуется только в случае коррелированных предикторов?
Но если ваша цель - исключительно предсказание, логические проблемы больше не действуют, и у вас есть веские аргументы в пользу использования какого-либо рода оценки усадки.
источник