В каких именно условиях регрессия гребня способна обеспечить улучшение по сравнению с обычной регрессией наименьших квадратов?

Хребетная регрессия оценивает параметры в линейной модели by где - параметр регуляризации. Хорошо известно, что он часто работает лучше, чем регрессия OLS (с ), когда существует много коррелированных предикторов. $\boldsymbol \beta$ $\mathbf y = \mathbf X \boldsymbol \beta$

{\hat{β}}_{λ} = (X^{⊤} X + λ I)^{- 1} X^{⊤} y,

$\hat{\boldsymbol \beta}_\lambda = (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1} \mathbf X^\top \mathbf y,$

λ

$\lambda$

λ = 0

$\lambda=0$

Теорема существования регрессионного гребня гласит, что всегда существует параметр $\lambda^* > 0$ такой, что среднеквадратичная ошибка $\hat{\boldsymbol \beta}_\lambda$ строго меньше среднеквадратичной ошибки OLS оценка $\hat{\boldsymbol \beta}_\mathrm{OLS}=\hat{\boldsymbol \beta}_0$ . Другими словами, оптимальное значение $\lambda$ всегда ненулевое. Это было, очевидно, впервые доказано в Hoerl and Kennard, 1970 и повторяется во многих заметках к лекциям, которые я нахожу в Интернете (например, здесь и здесь ). Мой вопрос о предположениях этой теоремы:

Есть ли предположения о ковариационной матрице $\mathbf X^\top \mathbf X$ ?
Есть ли предположения о размерности $\mathbf X$ ?

В частности, остается ли теорема верной, если предикторы ортогональны (т. $\mathbf X^\top \mathbf X$ диагональна) или даже если $\mathbf X^\top \mathbf X=\mathbf I$ ? И все еще верно, если есть только один или два предиктора (скажем, один предиктор и перехват)?

Если теорема не делает таких предположений и остается верной даже в этих случаях, то почему регрессия гребня обычно рекомендуется только в случае коррелированных предикторов и никогда (?) Не рекомендуется для простой (то есть не множественной) регрессии?

Это связано с моим вопросом о едином взгляде на усадку: какова связь (если таковая имеется) между парадоксом Штейна, регрессией гребня и случайными эффектами в смешанных моделях? Но пока нет ответов, проясняю этот момент до сих пор.

regression ridge-regression shrinkage амеба говорит восстановить монику
источник

Похоже, что все, кроме последнего вопроса, непосредственно рассматриваются в статье Хёрла и Кеннарда, особенно в первом предложении Введения и первом предложении Заключений. На последний вопрос можно ответить, отметив, что ковариация между постоянным вектором и любым единственным предиктором всегда равна нулю, что позволяет (стандартным образом) уменьшить до матрицы .

X^{'} X

$\mathbf{X^\prime X}$

1 \times 1

$1\times 1$

whuber

Спасибо, @whuber. Я верю, что статья Hoerl & Kennard отвечает на мои вопросы (по крайней мере, технические) - нужно уметь следовать доказательству и проверять предположения (я еще этого не сделал). Но я не полностью убежден предложениями, на которые вы ссылаетесь. Как первое предложение вступления связано с моим вопросом? Первое предложение Заключений предполагает, что если имеет равномерный спектр (например, равен ), то эта теорема неприменима. Но я не уверен на 100%, так как не вижу этого предположения, явно сформулированного до доказательства.

X^{⊤} X

$\mathbf X^\top \mathbf X$

I

$\mathbf I$

говорит амеба: восстанови Монику

Посмотрите, какие вопросы могут задавать пользователи с высоким уровнем репутации (которые обычно только отвечают на них) (и аналогично для вашего другого связанного вопроса, который прислал мне здесь stats.stackexchange.com/questions/122062/… !

javadba

Ответы на 1 и 2 - нет, но необходима осторожность при интерпретации теоремы существования.

Дисперсия хребта Оценщик

Пусть - оценка гребня при штрафе , и пусть - истинный параметр для модели . Пусть собственные значения . Из уравнений 4.2-4.5 Хёрла и Кеннарда риск (в терминах ожидаемой нормы ошибки) равен $\hat{\beta^*}$ $k$ $\beta$ $Y = X \beta + \epsilon$ $\lambda_1, \dotsc, \lambda_p$ $X^T X$
$L^2$

где, насколько я могу судить, Они отмечают, чтоимеет интерпретацию дисперсии внутреннего произведения, а

\begin{aligned} E ({[\hat{β^{*}} - β]}^{T} [\hat{β^{*}} - β]) & = σ^{2} \sum_{j = 1}^{p} λ_{j} / {(λ_{j} + k)}^{2} + k^{2} β^{T} {(X^{T} X + k I_{p})}^{- 2} β \\ = γ_{1} (k) + γ_{2} (k) \\ = R (k) \end{aligned}

$\begin{align*} E \left( \left[ \hat{\beta^*} - \beta \right]^T \left[ \hat{\beta^*} - \beta \right] \right)& = \sigma^2 \sum_{j=1}^p \lambda_j/ \left( \lambda_j +k \right)^2 + k^2 \beta^T \left( X^T X + k \mathbf{I}_p \right)^{-2} \beta \\ & = \gamma_1 (k) + \gamma_2(k) \\ & = R(k) \end{align*}$

{(X^{T} X + k I_{p})}^{- 2} = {(X^{T} X + k I_{p})}^{- 1} {(X^{T} X + k I_{p})}^{- 1} .

$\left( X^T X + k \mathbf{I}_p \right)^{-2} = \left( X^T X + k \mathbf{I}_p \right)^{-1} \left( X^T X + k \mathbf{I}_p \right)^{-1}.$

γ_{1}

$\gamma_1$

\hat{β^{*}} - β

$\hat{\beta^*} - \beta$

γ_{2}

$\gamma_2$ является внутренним продуктом смещения.

Предположим, что , тогда $X^T X = \mathbf{I}_p$ Пусть

R (k) = \frac{p σ^{2} + k^{2} β^{T} β}{(1 + k)^{2}} .

$R(k) = \frac{p \sigma^2 + k^2 \beta^T \beta}{(1+k)^2}.$

- производная от риска w / r / t

. Поскольку

, мы заключаем, что существует некоторое

такое, что

R^{'} (k) = 2 \frac{k (1 + k) β^{T} β - (p σ^{2} + k^{2} β^{T} β)}{(1 + k)^{3}}

$R^\prime (k) = 2\frac{k(1+k)\beta^T \beta - (p\sigma^2 + k^2 \beta^T \beta)}{(1+k)^3}$

k

$k$

lim_{k \to 0^{+}} R^{'} (k) = - 2 p σ^{2} < 0

$\lim_{k \rightarrow 0^+} R^\prime (k) = -2p \sigma^2 < 0$

k^{*} > 0

$k^*>0$

R (k^{*}) < R (0)

$R(k^*)<R(0)$

Авторы отмечают , что ортогональность это лучшее , что вы можете надеяться в плане риска при , и что , как условие числа возрастает, приближается . $k=0$ $X^T X$ $\lim_{k \rightarrow 0^+} R^\prime (k)$ $- \infty$

Комментарий

Здесь, по-видимому, существует парадокс: если и постоянен, то мы просто оцениваем среднее значение последовательности нормальных переменных, и мы знаем, что несмещенная оценка ванили допустима в этот случай. Это решается, если заметить, что приведенные выше рассуждения просто предусматривают, что для фиксированного существует минимальное значение . Но для любого мы можем увеличить риск, сделав большим, поэтому один только этот аргумент не показывает допустимости для оценки гребня. $p=1$ $X$ $(\beta, \sigma^2)$ $k$ $\beta^T \beta$ $k$ $\beta^T \beta$

Почему регрессия гребня обычно рекомендуется только в случае коррелированных предикторов?

$\beta ^T \beta$ $X^T X$ $\beta$ $E Y$ $X$ Подозрительно - большая ковариационная матрица является симптомом этого.

Но если ваша цель - исключительно предсказание, логические проблемы больше не действуют, и у вас есть веские аргументы в пользу использования какого-либо рода оценки усадки.

Андрей М
источник

β

$\beta$

k

$k$

k

$k$

k = 0

$k=0$

X^{'} X

$X^\prime X$

\hat{β^{*}} = Z \hat{β}

$\hat{\beta^*} = Z \hat{\beta}$

\hat{β}

$\hat{\beta}$

Z = {((X^{T} X)^{- 1} + k I_{p})}^{- 1}

$Z = \left( (X^TX)^{-1} + k I_p \right)^{-1}$

X^{T} X

$X^TX$

k

$k$

\hat{β^{*}} \approx 0

$\hat{\beta^*} \approx 0$

β^{T} β

$\beta^T \beta$

λ

$\lambda$

В каких именно условиях регрессия гребня способна обеспечить улучшение по сравнению с обычной регрессией наименьших квадратов?

Ответы:

Дисперсия хребта Оценщик

Комментарий

Почему регрессия гребня обычно рекомендуется только в случае коррелированных предикторов?