Ясное объяснение «численной устойчивости матричной инверсии» в регрессии гребня и ее роль в уменьшении избыточного соответствия

Я понимаю, что мы можем использовать регуляризацию в задаче регрессии наименьших квадратов как

w^{*} = \underset{w}{argmin} [(y - X w)^{T} (y - X w) + λ ‖ w ‖^{2}]

$\boldsymbol{w}^* = \operatorname*{argmin}_w \left[ (\mathbf y-\mathbf{Xw})^T(\boldsymbol{y}-\mathbf{Xw}) + \lambda\|\boldsymbol{w}\|^2 \right]$

и что эта проблема имеет решение в закрытой форме как:

\hat{w} = (X^{T} X + λ I)^{- 1} X^{T} y .

$\hat{\boldsymbol{w}} = (\boldsymbol{X}^T\boldsymbol{X}+\lambda\boldsymbol{I})^{-1}\boldsymbol{X}^T\boldsymbol{y}.$

Мы видим, что во 2-м уравнении регуляризация просто добавляет $\lambda$ к диагонали $\boldsymbol{X}^T\boldsymbol{X}$ , что делается для улучшения численной устойчивости инверсии матриц.

Мое текущее «грубое» понимание числовой стабильности состоит в том, что если функция станет более «численно устойчивой», то на ее выход будет меньше влиять шум на ее входах. Я испытываю трудности, связывая эту концепцию улучшенной числовой стабильности с общей картиной того, как она избегает / уменьшает проблему переобучения.

Я попытался просмотреть Википедию и несколько других университетских веб-сайтов, но они не углубляются в объяснение, почему это так.

regression regularization ridge-regression overfitting matrix-inverse начинающий
источник

Ридж регрессия приходит на ум. ссылка

EngrStudent

Вы можете найти некоторую ценность в (в основном описательном / интуитивном, а не алгебраическом) обсуждении в разделе Почему оценка гребня становится лучше, чем OLS, добавляя константу к диагонали?

Glen_b

Ответы:

В линейной модели , предполагая некоррелированные ошибки со средним нулем и имеющим полный ранг столбца, оценка наименьших квадратов является несмещенной оценкой для параметра . Однако эта оценка может иметь высокую дисперсию. Например, когда два столбца сильно коррелированы. $Y=X\beta + \epsilon$ $X$ $(X^TX)^{-1}X^TY$ $\beta$ $X$

Параметр штрафа делает смещенной оценкой , но уменьшает ее дисперсию. Кроме того, является последним ожиданием в байесовской регрессии с до . В этом смысле мы включаем в анализ некоторую информацию, которая говорит, что компоненты не должны быть слишком далеко от нуля. Опять же, это приводит нас к смещенной точечной оценке но уменьшает дисперсию оценки. $\lambda$ $\hat{w}$ $\beta$ $\hat{w}$ $\beta$ $N(0,\frac{1}{\lambda}I)$ $\beta$ $\beta$ $\beta$

В условиях, когда большой размер, скажем, , подгонка по методу наименьших квадратов будет соответствовать данным почти идеально. Несмотря на непредвзятость, эта оценка будет очень чувствительной к колебаниям данных, потому что в таких больших измерениях будет много точек с высоким левереджем. В таких ситуациях знак некоторых компонентов может быть определен одним наблюдением. Срок штрафа приводит к уменьшению этих оценок до нуля, что может уменьшить MSE оценщика за счет уменьшения дисперсии. $X$ $N \approx p$ $\hat{\beta}$

Изменить: в своем первоначальном ответе я предоставил ссылку на соответствующий документ и в спешке я удалил ее. Вот оно: http://www.jarad.me/stat615/papers/Ridge_Regression_in_Practice.pdf

HStamper
источник

В его нынешнем виде это действительно больше комментарий; Как вы думаете, вы могли бы воплотить это в предметный ответ?

Серебряная

Нижняя часть р. 5 справа / верх п. На рис. 6 слева показано ключевое обсуждение вопроса, заданного в этом посте.

Марк Л. Стоун

Это все правильно, но я не уверен, что он отвечает на вопрос ОП.

амеба

amoeba, см. мой комментарий выше, который ссылается на ссылку, которая впоследствии была отредактирована из ответа Эрика Миттмана, jarad.me/stat615/papers/Ridge_Regression_in_Practice.pdf .

Марк Л. Стоун

Численная стабильность и переоснащение в некотором смысле связаны между собой, но это разные вопросы.

Классическая проблема МЖС:

Рассмотрим классическую задачу наименьших квадратов:

minimize (over b) (y - X b)^{T} (y - X b)

$\operatorname*{minimize}(\text{over $\mathbf{b}$}) \quad(\mathbf y-X\mathbf{b})^T(\boldsymbol{y}-X\mathbf{b})$

Решением является классический . Идея состоит в том, что по закону больших чисел: $\hat{\mathbf{b}} = (X'X)^{-1}(X'\mathbf{y})$

lim_{n \to \infty} \frac{1}{n} X^{'} X \to E [x x^{'}] lim_{n \to \infty} \frac{1}{n} X^{'} y \to E [x y]

$\lim_{n \rightarrow \infty} \frac{1}{n} X'X \rightarrow \mathrm{E}[\mathbf{x}\mathbf{x}'] \quad \quad \quad \lim_{n \rightarrow \infty} \frac{1}{n} X'\mathbf{y} \rightarrow \mathrm{E}[\mathbf{x}y]$

Следовательно, оценка OLS также сходится к . (В терминах линейной алгебры это линейная проекция случайной величины на линейную оболочку случайных величин .) $\hat{\mathbf{b}}$ $\mathrm{E}[\mathbf{x}\mathbf{x}']^{-1}\mathrm{E}[\mathbf{x}y]$ $y$ $x_1, x_2, \ldots, x_k$

Проблемы?

Механически, что может пойти не так? Каковы возможные проблемы?

Для небольших выборок наши выборочные оценки и могут быть плохими. $\mathrm{E}[\mathbf{x}\mathbf{x}']$ $\mathrm{E}[\mathbf{x}y]$
Если столбцы коллинеарны (либо из-за присущей коллинеарности, либо из-за небольшого размера выборки), проблема будет иметь континуум решений! Решение не может быть уникальным.
- Это происходит, если имеет недостаток ранга. $\mathrm{E}[\mathbf{x}\mathbf{x}']$
- Это также происходит, если имеет недостаток ранга из-за небольшого размера выборки по сравнению с количеством проблем регрессора. $X'X$

Проблема (1) может привести к переобучению, так как оценка начинает отражать закономерности в выборке, которых нет в основной совокупности. Оценка может отражать шаблоны в и которые на самом деле не существуют в и $\hat{\mathbf{b}}$ $\frac{1}{n}X'X$ $\frac{1}{n}X'\mathbf{y}$ $\mathrm{E}[\mathbf{x}\mathbf{x}']$ $\mathrm{E}[\mathbf{x}y]$

Проблема (2) означает, что решение не уникально. Представьте, что мы пытаемся оценить цену отдельной обуви, но пары обуви всегда продаются вместе. Это некорректная проблема, но, допустим, мы все равно это делаем. Мы можем верить, что цена левой обуви плюс цена правой обуви равна 50 , но как мы можем определить индивидуальные цены? Устанавливает ли цена обуви а цена правой обуви ? Как мы можем выбрать из всех возможностей? $p_l = 45$ $p_r = 5$

Представляем штраф : $L_2$

Теперь рассмотрим:

minimize (over b) (y - X b)^{T} (y - X b) + λ ‖ b ‖^{2}

$\operatorname*{minimize}(\text{over }\mathbf{b})\quad (\mathbf y-X\mathbf{b})^T(\boldsymbol{y}-X\mathbf{b}) + \lambda\|\boldsymbol{b}\|^2$

Это может помочь нам с обоими типами проблем. штраф толкает нашу оценку к нулю. Это эффективно работает как байесовский до того, как распределение по значениям коэффициента сосредоточено вокруг . Это помогает с переоснащением. Наша оценка будет отражать как данные, так и наши первоначальные убеждения, что близок к нулю. $L_2$ $\mathbf{b}$ $\mathbf{0}$ $\mathbf{b}$

$L_2$ Регуляризация также всегда позволяет нам найти уникальное решение некорректных задач. Если мы знаем, что цена левого и правого башмака составляет , решение, которое также минимизирует норму - это выбрать . $\$50$ $L_2$ $p_l = p_r = 25$

Это волшебство? Нет. Регуляризация - это не то же самое, что добавление данных, которые фактически позволили бы нам ответить на вопрос. Регуляризация в некотором смысле принимает мнение, что если вам не хватает данных, выбирайте оценки ближе к . $L_2$ $0$

Мэтью Ганн
источник

Ясное объяснение «численной устойчивости матричной инверсии» в регрессии гребня и ее роль в уменьшении избыточного соответствия

Ответы:

Классическая проблема МЖС:

Проблемы?

Представляем штраф :L2L2L_2

Представляем штраф : $L_2$