Как найти коэффициенты регрессии

В регрессии гребня целевая функция, которая должна быть минимизирована:

RSS + λ \sum β_{j}^{2} .

$\text{RSS}+\lambda \sum\beta_j^2.$

Можно ли это оптимизировать с помощью метода множителей Лагранжа? Или это прямая дифференциация?

regression regularization ridge-regression Minaj
источник

Какова связь между заголовком (который фокусируется на

λ

$\lambda$ ) и вопросом (который, кажется, касается только

β_{j}

$\beta_j$ )? Я обеспокоен тем, что «быть оптимизированным» может иметь совершенно разные интерпретации в зависимости от того, какие переменные считаются теми, которые можно варьировать, а какие следует фиксировать.

whuber

спасибо изменил вопрос. Я читал, что

λ

$\lambda$ находится путем перекрестной проверки - но я считаю, что это означает, что у вас уже есть

β_{j}

$\beta_j$ и вы используете разные данные, чтобы найти лучший

λ

$\lambda$ Вопрос в том, как вы найдете

β_{j}

$\beta_j$ в первую очередь. когда

λ

$\lambda$ неизвестно?

Минаж

Есть две формулировки для проблемы гребня. Первый

β_{R} = \underset{β}{argmin} {(y - X β)}^{'} (y - X β)

$\boldsymbol{\beta}_R = \operatorname*{argmin}_{\boldsymbol{\beta}} \left( \mathbf{y} - \mathbf{X} \boldsymbol{\beta} \right)^{\prime} \left( \mathbf{y} - \mathbf{X} \boldsymbol{\beta} \right)$

при условии

\sum_{j} β_{j}^{2} \leq s .

$\sum_{j} \beta_j^2 \leq s.$

Эта формулировка показывает ограничение размера на коэффициенты регрессии. Обратите внимание, что подразумевает это ограничение; мы заставляем коэффициенты лежать в шаре вокруг начала координат с радиусом $\sqrt{s}$ .

Вторая формулировка - это как раз ваша проблема

β_{R} = \underset{β}{argmin} {(y - X β)}^{'} (y - X β) + λ \sum β_{j}^{2}

$\boldsymbol{\beta}_R = \operatorname*{argmin}_{\boldsymbol{\beta}} \left( \mathbf{y} - \mathbf{X} \boldsymbol{\beta} \right)^{\prime} \left( \mathbf{y} - \mathbf{X} \boldsymbol{\beta} \right) + \lambda \sum\beta_j^2$

который можно рассматривать как формулировку множителя Ларгранжа. Обратите внимание, что здесь является параметром настройки, и большие значения приведут к большей усадке. Вы можете приступить к дифференцированию выражения относительно и получить хорошо известную оценку гребня $\lambda$ $\boldsymbol{\beta}$

\begin{matrix} (1) & β_{R} = {(X^{'} X + λ I)}^{- 1} X^{'} y \end{matrix}

$\boldsymbol{\beta}_{R} = \left( \mathbf{X}^{\prime} \mathbf{X} + \lambda \mathbf{I} \right)^{-1} \mathbf{X}^{\prime} \mathbf{y} \tag{1}$

Эти две формулировки полностью эквивалентны , поскольку существует взаимно-однозначное соответствие между и $s$ $\lambda$ .

Позвольте мне подробнее остановиться на этом. Представьте , что вы в идеальном ортогональном случае, . Это очень упрощенная и нереалистичная ситуация, но мы можем исследовать оценщик чуть ближе, так что терпите меня. Рассмотрим, что происходит с уравнением (1). Оценка гребня сводится к $\mathbf{X}^{\prime} \mathbf{X} = \mathbf{I}$

β_{R} = {(I + λ I)}^{- 1} X^{'} y = {(I + λ I)}^{- 1} β_{O L S}

$\boldsymbol{\beta}_R = \left( \mathbf{I} + \lambda \mathbf{I} \right)^{-1} \mathbf{X}^{\prime} \mathbf{y} = \left( \mathbf{I} + \lambda \mathbf{I} \right)^{-1} \boldsymbol{\beta}_{OLS}$

как и в ортогональном случае, оценка OLS определяется как . Глядя на этот компонент теперь мы получаем $\boldsymbol{\beta}_{OLS} = \mathbf{X}^{\prime} \mathbf{y}$

\begin{matrix} (2) & β_{R} = \frac{β_{O L S}}{1 + λ} \end{matrix}

$\beta_R = \frac{\beta_{OLS}}{1+\lambda} \tag{2}$

Обратите внимание, что теперь усадка постоянна для всех коэффициентов. Это может не иметь места в общем случае, и действительно может быть показано, что усадки будут сильно различаться, если в есть вырождения $\mathbf{X}^{\prime} \mathbf{X}$ матрице .

Но вернемся к проблеме ограниченной оптимизации. Согласно теории ККТ , необходимым условием оптимальности является

λ (\sum β_{R, j}^{2} - s) = 0

$\lambda \left( \sum \beta_{R,j} ^2 -s \right) = 0$

so either $\lambda = 0$ or $\sum \beta_{R,j} ^2 -s = 0$ (in this case we say that the constraint is binding). If $\lambda = 0$ then there is no penalty and we are back in the regular OLS situation. Suppose then that the constraint is binding and we are in the second situation. Using the formula in (2), we then have

s = \sum β_{R, j}^{2} = \frac{1}{{(1 + λ)}^{2}} \sum β_{O L S, j}^{2}

$s = \sum \beta_{R,j}^2 = \frac{1}{\left(1 + \lambda \right)^2} \sum \beta_{OLS,j}^2$

whence we obtain

λ = \sqrt{\frac{\sum β_{O L S, j}^{2}}{s}} - 1

$\lambda = \sqrt{\frac{\sum \beta_{OLS,j} ^2}{s}} - 1$

отношения один-к-одному ранее заявлены. Я ожидаю, что это сложнее установить в неортогональном случае, но результат несет независимо.

Посмотрите еще раз на (2), и вы увидите, что мы все еще пропускаем . Чтобы получить для него оптимальное значение, вы можете использовать перекрестную проверку или посмотреть на трассу гребня. Последний метод включает построение последовательности в (0,1) и просмотр изменения оценок. Затем вы выбираете который стабилизирует их. Кстати, этот метод был предложен во второй из приведенных ниже ссылок и является самым старым. $\lambda$ $\lambda$ $\lambda$

Ссылки

Хёрл, Артур Э. и Роберт В. Кеннард. «Хребетная регрессия: предвзятая оценка для неортогональных задач». Technometrics 12.1 (1970): 55-67.

Хёрл, Артур Э. и Роберт В. Кеннард. «Хребетная регрессия: приложения к неортогональным задачам». Technometrics 12.1 (1970): 69-82.

JohnK
источник

@Minaj Хребет регрессии имеет постоянную усадку для всех коэффициентов (кроме перехвата). Вот почему есть только один множитель.

JohnK

@amoeba Это предложение Херла и Кеннарда, людей, которые в 1970-х годах внедрили регрессию гребня. Исходя из их опыта - и моего - коэффициенты будут стабилизироваться в этом интервале даже с экстремальными степенями мультиколлинеарности. Конечно, это эмпирическая стратегия, и поэтому она не гарантированно работает все время.

JohnK

Вы также можете просто использовать метод псевдонаблюдения и получить оценки, не имея ничего более сложного, чем регрессионная программа с наименьшими квадратами. Вы также можете исследовать эффект изменения

аналогичным образом.

λ

$\lambda$

Glen_b

@amoeba Это правда, что гребень не является инвариантом масштаба, поэтому обычной практикой является стандартизация данных заранее. Я включил соответствующие ссылки на случай, если вы захотите взглянуть. Они очень интересные и не очень технические.

JohnK

@JohnK в действительности регрессия гребня сжимает каждый

на разную величину, поэтому усадка не постоянна, даже если есть только один параметр усадки

β

$\beta$

λ

$\lambda$

Фрэнк Харрелл

Как найти коэффициенты регрессии

Ответы: