В регрессии гребня целевая функция, которая должна быть минимизирована:
Можно ли это оптимизировать с помощью метода множителей Лагранжа? Или это прямая дифференциация?
В регрессии гребня целевая функция, которая должна быть минимизирована:
Можно ли это оптимизировать с помощью метода множителей Лагранжа? Или это прямая дифференциация?
Ответы:
Есть две формулировки для проблемы гребня. Первый
при условии
Эта формулировка показывает ограничение размера на коэффициенты регрессии. Обратите внимание, что подразумевает это ограничение; мы заставляем коэффициенты лежать в шаре вокруг начала координат с радиусомs√ .
Вторая формулировка - это как раз ваша проблема
который можно рассматривать как формулировку множителя Ларгранжа. Обратите внимание, что здесь является параметром настройки, и большие значения приведут к большей усадке. Вы можете приступить к дифференцированию выражения относительно β и получить хорошо известную оценку гребняλ β
Эти две формулировки полностью эквивалентны , поскольку существует взаимно-однозначное соответствие между и λs λ .
Позвольте мне подробнее остановиться на этом. Представьте , что вы в идеальном ортогональном случае, . Это очень упрощенная и нереалистичная ситуация, но мы можем исследовать оценщик чуть ближе, так что терпите меня. Рассмотрим, что происходит с уравнением (1). Оценка гребня сводится кX′X=I
как и в ортогональном случае, оценка OLS определяется как . Глядя на этот компонент теперь мы получаемβOLS=X′y
Обратите внимание, что теперь усадка постоянна для всех коэффициентов. Это может не иметь места в общем случае, и действительно может быть показано, что усадки будут сильно различаться, если в X ′ X есть вырожденияX′X матрице .
Но вернемся к проблеме ограниченной оптимизации. Согласно теории ККТ , необходимым условием оптимальности является
so eitherλ=0 or ∑β2R,j−s=0 (in this case we say that the constraint is binding). If λ=0 then there is no penalty and we are back in the regular OLS situation. Suppose then that the constraint is binding and we are in the second situation. Using the formula in (2), we then have
whence we obtain
отношения один-к-одному ранее заявлены. Я ожидаю, что это сложнее установить в неортогональном случае, но результат несет независимо.
Посмотрите еще раз на (2), и вы увидите, что мы все еще пропускаем . Чтобы получить для него оптимальное значение, вы можете использовать перекрестную проверку или посмотреть на трассу гребня. Последний метод включает построение последовательности λ в (0,1) и просмотр изменения оценок. Затем вы выбираете λ, который стабилизирует их. Кстати, этот метод был предложен во второй из приведенных ниже ссылок и является самым старым.λ λ λ
Ссылки
источник
My book Regression Modeling Strategies delves into the use of effective AIC for choosingλ . This comes from the penalized log likelihood and the effective degrees of freedom, the latter being a function of how much variances of β^ are reduced by penalization. A presentation about this is here. The R λ that optimizes effective AIC, and also allows for multiple penalty parameters (e.g., one for linear main effects, one for nonlinear main effects, one for linear interaction effects, and one for nonlinear interaction effects).
rms
packagepentrace
findsисточник
I don't do it analytically, but rather numerically. I usually plot RMSE vs. λ as such:
Figure 1. RMSE and the constant λ or alpha.
источник