Я понимаю, что мы можем использовать регуляризацию в задаче регрессии наименьших квадратов как
и что эта проблема имеет решение в закрытой форме как:
Мы видим, что во 2-м уравнении регуляризация просто добавляет к диагонали , что делается для улучшения численной устойчивости инверсии матриц.
Мое текущее «грубое» понимание числовой стабильности состоит в том, что если функция станет более «численно устойчивой», то на ее выход будет меньше влиять шум на ее входах. Я испытываю трудности, связывая эту концепцию улучшенной числовой стабильности с общей картиной того, как она избегает / уменьшает проблему переобучения.
Я попытался просмотреть Википедию и несколько других университетских веб-сайтов, но они не углубляются в объяснение, почему это так.
Ответы:
В линейной модели , предполагая некоррелированные ошибки со средним нулем и имеющим полный ранг столбца, оценка наименьших квадратов является несмещенной оценкой для параметра . Однако эта оценка может иметь высокую дисперсию. Например, когда два столбца сильно коррелированы.Y=Xβ+ϵ X (XTX)−1XTY β X
Параметр штрафа делает смещенной оценкой , но уменьшает ее дисперсию. Кроме того, является последним ожиданием в байесовской регрессии с до . В этом смысле мы включаем в анализ некоторую информацию, которая говорит, что компоненты не должны быть слишком далеко от нуля. Опять же, это приводит нас к смещенной точечной оценке но уменьшает дисперсию оценки.λ w^ β w^ β N(0,1λI) β β β
В условиях, когда большой размер, скажем, , подгонка по методу наименьших квадратов будет соответствовать данным почти идеально. Несмотря на непредвзятость, эта оценка будет очень чувствительной к колебаниям данных, потому что в таких больших измерениях будет много точек с высоким левереджем. В таких ситуациях знак некоторых компонентов может быть определен одним наблюдением. Срок штрафа приводит к уменьшению этих оценок до нуля, что может уменьшить MSE оценщика за счет уменьшения дисперсии.X N≈p β^
Изменить: в своем первоначальном ответе я предоставил ссылку на соответствующий документ и в спешке я удалил ее. Вот оно: http://www.jarad.me/stat615/papers/Ridge_Regression_in_Practice.pdf
источник
Численная стабильность и переоснащение в некотором смысле связаны между собой, но это разные вопросы.
Классическая проблема МЖС:
Рассмотрим классическую задачу наименьших квадратов:
Решением является классический . Идея состоит в том, что по закону больших чисел:b^=(X′X)−1(X′y)
Следовательно, оценка OLS также сходится к . (В терминах линейной алгебры это линейная проекция случайной величины на линейную оболочку случайных величин .)b^ E[xx′]−1E[xy] y x1,x2,…,xk
Проблемы?
Механически, что может пойти не так? Каковы возможные проблемы?
Проблема (1) может привести к переобучению, так как оценка начинает отражать закономерности в выборке, которых нет в основной совокупности. Оценка может отражать шаблоны в и которые на самом деле не существуют в иb^ 1nX′X 1nX′y E[xx′] E[xy]
Проблема (2) означает, что решение не уникально. Представьте, что мы пытаемся оценить цену отдельной обуви, но пары обуви всегда продаются вместе. Это некорректная проблема, но, допустим, мы все равно это делаем. Мы можем верить, что цена левой обуви плюс цена правой обуви равна 50 долларам , но как мы можем определить индивидуальные цены? Устанавливает ли цена обуви а цена правой обуви ? Как мы можем выбрать из всех возможностей?pl=45 pr=5
Представляем штраф :L2
Теперь рассмотрим:
Это может помочь нам с обоими типами проблем. штраф толкает нашу оценку к нулю. Это эффективно работает как байесовский до того, как распределение по значениям коэффициента сосредоточено вокруг . Это помогает с переоснащением. Наша оценка будет отражать как данные, так и наши первоначальные убеждения, что близок к нулю.L2 b 0 b
Это волшебство? Нет. Регуляризация - это не то же самое, что добавление данных, которые фактически позволили бы нам ответить на вопрос. Регуляризация в некотором смысле принимает мнение, что если вам не хватает данных, выбирайте оценки ближе к .L2 0
источник