Связь между регрессией гребня и регрессией PCA

19

Я помню, что где-то в Интернете читал связь между регрессией гребня (с регуляризацией ) и регрессией PCA: при использовании регрессии с с гиперпараметром , если , то регрессия эквивалентна удалению ПК переменная с наименьшим собственным значением.2 А , А , 02λλ0

  • Почему это правда?
  • Это как-то связано с процедурой оптимизации? Наивно, я ожидал бы, что это будет эквивалентно OLS.
  • У кого-нибудь есть ссылка на это?
Хосе Г
источник
1
Не могли бы вы более подробно объяснить, как PCA и регрессия связаны в вашем утверждении? Регрессия отличает зависимые от независимых переменных, тогда как в PCA ничего подобного не происходит. Так к каким переменным вы применяете PCA? Это не могут быть только независимые переменные, поскольку это не имеет ничего общего с регрессией. Но если он применяется ко всем переменным, то собственные векторы являются линейными комбинациями всех их. Что это может означать для удаления любого такого компонента из набора данных, поскольку он включает в себя зависимую переменную?
whuber
1
Связь (как я понимаю) заключается в том, что если вы используете очень небольшое наказание за регуляризацию, то регуляризованная по L2 регрессия будет удалять переменную с наименьшим собственным значением. Следовательно, выполнение SVD на матрице проектирования и удаление переменной с наименьшим собственным значением эквивалентно регрессии с «мягким» штрафом за регуляризацию ... Это самое близкое объяснение, которое я нашел этому: sites.stat.psu. edu / ~ jiali / course / stat597e / notes2 / lreg.pdf
Хосе Дж
3
Ваша ссылка, по-видимому, демонстрирует противоположность того, что вы говорите в своих комментариях: при малых значениях очень незначительны. Ничто не удаляется вообще. Фактически, несколько слайдов, как представляется, направлены на то, чтобы указать на разницу между штрафной регрессией L 2 (в которой оценки сокращаются до 0 ) и «регрессией PCA» (в которой полностью удаляются самые маленькие компоненты - что может быть очень плохо в некоторые обстоятельства). λL20
whuber
2
Мм .. нашел другую ссылку: statweb.stanford.edu/~owen/courses/305/Rudyregularization.pdf В слайде, « и основные компоненты», он говорит , что гребень регрессии проекты у на эти компоненты с большой диджей * вздох *yridge
Хосе Г
3
Вы заметили, что р. 14 из этой последней ссылки явно отвечает на ваш вопрос?
whuber

Ответы:

23

Пусть - центрированная матрица предикторов n × p и рассмотрим ее разложение по сингулярным числам X = U S V ⊤, где S - диагональная матрица с диагональными элементами s i .Xn×pX=USVSsi

Подобранные значения обычных наименьших квадратов (МНК) регрессионный даются у O L S = X & beta ; O L S = X ( XX ) - 1 Xу = U Uу . Подобранные значения гребневого регрессии определяются у г я д г е = Х β г я д г е = Х ( Х +

y^OLS=XβOLS=X(XX)1Xy=UUy.
Подобранные значения PCA регрессии (ПЦР) сKкомпонентами определяются у PCR=ХРСβРСР=U
y^ridge=Xβridge=X(XX+λI)1Xy=Udiag{si2si2+λ}Uy.
k где есть
y^PCR=XPCAβPCR=Udiag{1,,1,0,0}Uy,
единиц, за которыми следуют нули.k

Отсюда мы видим, что:

  1. Если , то у г я д г е = у О л S .λ=0y^ridge=y^OLS

  2. λ>0sisi2λ и меньше) наказываются больше всего.

  3. kλ=0kλ= для остальных.

  4. Это означает, что регрессия гребня может рассматриваться как «гладкая версия» ПЦР.

    siX

  5. Регрессия гребня имеет тенденцию работать лучше на практике (например, иметь более высокую перекрестную валидацию производительности).

  6. λ0y^ridgey^OLSsi

Одним хорошим примером являются «Элементы статистического обучения». , раздел 3.4.1 «Регрессия хребта».


Смотрите также эту ветку: Интерпретация регуляризации гребня в регрессии и, в частности, ответ @BrianBorchers.

амеба говорит восстановить монику
источник
Будет ли когда-нибудь иметь смысл устанавливать пороговые значения, max ( sя-молотить, 0)? (Лассо регрессия мягких пороговβLеasT-sQUaреs, а не спектр.)
Денис
Одна поправка к вашему в противном случае отличному ответу: подогнанные значения в регрессии на первом КПК на самом деле
Udiag(11,12,...,1k,0,...,0)UTy
This is an exercise at the end of the chapter that you mention.
Matthias Schmidtblaicher
This is beautiful.
xxx222
6

Elements of Statistical Learning has a great discussion on this connection.

The way I interpreted this connection and logic is as follows:

  • PCA is a Linear Combination of the Feature Variables, attempting to maximize the variance of the data explained by the new space.
  • Data that suffers from multicollinearity (or more predictors than rows of data) leads to a Covariance Matrix that does not have full Rank.
  • With this Covariance Matrix, we cannot invert to determine the Least Squares solution; this causes the numerical approximation of the Least Squares Coefficients to blow up to infinity.
  • Ridge Regression introduces the penalty Lambda on the Covariance Matrix to allow for matrix inversion and convergence of the LS Coefficients.

The PCA connection is that Ridge Regression is calculating the Linear Combinations of the Features to determine where the multicollinearity is occurring. The Linear Combinations of Features (Principle Component Analysis) with the smallest variance (and hence smaller singular values and smaller eigenvalues in PCA) are the ones penalized the hardest.

Think of it this way; for the Linear Combinations of Features with smallest variance, we have found the Features that are most alike, hence causing the multicollinearity. Since Ridge does not reduce the Feature set, whichever direction this Linear Combination is describing, the original Feature corresponding to that direction is penalized the most.

MDornbos
источник
2

Consider the linear equation

Xβ=y,
and the SVD of X,
X=USVT,
where S=diag(si) is the diagonal matrix of singular values.

Ordinary least squares determines the parameter vector β as

βOLS=VS1UT
However, this approach fails as soon there is one singular value which is zero (as then the inverse does not exists). Moreover, even if no si is excatly zero, numerically small singular values can render the matrix ill-conditioned and lead to a solution which is highly susceptible to errors.

Ridge regression and PCA present two methods to avoid these problems. Ridge regression replaces S1 in the above equation for β by

Sridge1=diag(sisi2+α),βridge= VSridge1UT

PCA replaces S1 by

SPCA1=diag(1siθ(siγ)),βPCA= VSPCA1UT
wehre θ is the step function, and γ is the threshold parameter.

Both methods thus weaken the impact of subspaces corresponding to small values. PCA does that in a hard way, while the ridge is a smoother approach.

More abstractly, feel free to come up with your own regularization scheme

SmyReg1=diag(R(si)),
where R(x) is a function that should approach zero for x0 and R(x)x1 for x large. But remember, there's no free lunch.

davidhigh
источник