Я помню, что где-то в Интернете читал связь между регрессией гребня (с регуляризацией ) и регрессией PCA: при использовании регрессии с с гиперпараметром , если , то регрессия эквивалентна удалению ПК переменная с наименьшим собственным значением. А , А , → 0
- Почему это правда?
- Это как-то связано с процедурой оптимизации? Наивно, я ожидал бы, что это будет эквивалентно OLS.
- У кого-нибудь есть ссылка на это?
Ответы:
Пусть - центрированная матрица предикторов n × p и рассмотрим ее разложение по сингулярным числам X = U S V ⊤, где S - диагональная матрица с диагональными элементами s i .X n×p X=USV⊤ S si
Подобранные значения обычных наименьших квадратов (МНК) регрессионный даются у O L S = X & beta ; O L S = X ( X ⊤ X ) - 1 X ⊤ у = U U ⊤ у . Подобранные значения гребневого регрессии определяются у г я д г е = Х β г я д г е = Х ( Х ⊤ +
Отсюда мы видим, что:
Если , то у г я д г е = у О л S .λ=0 y^ridge=y^OLS
Это означает, что регрессия гребня может рассматриваться как «гладкая версия» ПЦР.
Регрессия гребня имеет тенденцию работать лучше на практике (например, иметь более высокую перекрестную валидацию производительности).
Одним хорошим примером являются «Элементы статистического обучения». , раздел 3.4.1 «Регрессия хребта».
Смотрите также эту ветку: Интерпретация регуляризации гребня в регрессии и, в частности, ответ @BrianBorchers.
источник
Elements of Statistical Learning has a great discussion on this connection.
The way I interpreted this connection and logic is as follows:
The PCA connection is that Ridge Regression is calculating the Linear Combinations of the Features to determine where the multicollinearity is occurring. The Linear Combinations of Features (Principle Component Analysis) with the smallest variance (and hence smaller singular values and smaller eigenvalues in PCA) are the ones penalized the hardest.
Think of it this way; for the Linear Combinations of Features with smallest variance, we have found the Features that are most alike, hence causing the multicollinearity. Since Ridge does not reduce the Feature set, whichever direction this Linear Combination is describing, the original Feature corresponding to that direction is penalized the most.
источник
Consider the linear equationXβ=y,
and the SVD of X ,
X=USVT,
where S=diag(si) is the diagonal matrix of singular values.
Ordinary least squares determines the parameter vectorβ as
βOLS=VS−1UT
However, this approach fails as soon there is one singular value which is zero (as then the inverse does not exists). Moreover, even if no si is excatly zero, numerically small singular values can render the matrix ill-conditioned and lead to a solution which is highly susceptible to errors.
Ridge regression and PCA present two methods to avoid these problems. Ridge regression replacesS−1 in the above equation for β by
S−1ridgeβridge=diag(sis2i+α),= VS−1ridgeUT
PCA replacesS−1 by
S−1PCAβPCA=diag(1siθ(si−γ)),= VS−1PCAUT
wehre θ is the step function, and γ is the threshold parameter.
Both methods thus weaken the impact of subspaces corresponding to small values. PCA does that in a hard way, while the ridge is a smoother approach.
More abstractly, feel free to come up with your own regularization schemeS−1myReg=diag(R(si)),
where R(x) is a function that should approach zero for x→0 and R(x)→x−1 for x large. But remember, there's no free lunch.
источник