Связь между регрессией гребня и регрессией PCA

Я помню, что где-то в Интернете читал связь между регрессией гребня (с регуляризацией ) и регрессией PCA: при использовании регрессии с с гиперпараметром , если , то регрессия эквивалентна удалению ПК переменная с наименьшим собственным значением. $\ell_2$ $\ell_2$ $\lambda$ $\lambda \to 0$

Почему это правда?
Это как-то связано с процедурой оптимизации? Наивно, я ожидал бы, что это будет эквивалентно OLS.
У кого-нибудь есть ссылка на это?

regression pca regularization ridge-regression Хосе Г
источник

Не могли бы вы более подробно объяснить, как PCA и регрессия связаны в вашем утверждении? Регрессия отличает зависимые от независимых переменных, тогда как в PCA ничего подобного не происходит. Так к каким переменным вы применяете PCA? Это не могут быть только независимые переменные, поскольку это не имеет ничего общего с регрессией. Но если он применяется ко всем переменным, то собственные векторы являются линейными комбинациями всех их. Что это может означать для удаления любого такого компонента из набора данных, поскольку он включает в себя зависимую переменную?

whuber

Связь (как я понимаю) заключается в том, что если вы используете очень небольшое наказание за регуляризацию, то регуляризованная по L2 регрессия будет удалять переменную с наименьшим собственным значением. Следовательно, выполнение SVD на матрице проектирования и удаление переменной с наименьшим собственным значением эквивалентно регрессии с «мягким» штрафом за регуляризацию ... Это самое близкое объяснение, которое я нашел этому: sites.stat.psu. edu / ~ jiali / course / stat597e / notes2 / lreg.pdf

Хосе Дж

Ваша ссылка, по-видимому, демонстрирует противоположность того, что вы говорите в своих комментариях: при малых значениях

очень незначительны. Ничто не удаляется вообще. Фактически, несколько слайдов, как представляется, направлены на то, чтобы указать на разницу между штрафной регрессией

(в которой оценки сокращаются до

) и «регрессией PCA» (в которой полностью удаляются самые маленькие компоненты - что может быть очень плохо в некоторые обстоятельства).

λ

$\lambda$

L^{2}

$L^2$

0

$0$

whuber

Мм .. нашел другую ссылку: statweb.stanford.edu/~owen/courses/305/Rudyregularization.pdf В слайде, «

и основные компоненты», он говорит , что гребень регрессии проекты у на эти компоненты с большой диджей * вздох *

y^{r i d g e}

$y^{ridge}$

Хосе Г

Вы заметили, что р. 14 из этой последней ссылки явно отвечает на ваш вопрос?

whuber

Ответы:

Пусть - центрированная матрица предикторов и рассмотрим ее разложение по сингулярным числам где - диагональная матрица с диагональными элементами . $\mathbf X$ $n \times p$ $\mathbf X = \mathbf{USV}^\top$ $\mathbf S$ $s_i$

Подобранные значения обычных наименьших квадратов (МНК) регрессионный даются Подобранные значения гребневого регрессии определяются

{\hat{y}}_{O L S} = X β_{O L S} = X (X^{⊤} X)^{- 1} X^{⊤} y = U U^{⊤} y .

$\hat {\mathbf y}_\mathrm{OLS} = \mathbf X \beta_\mathrm{OLS} = \mathbf X (\mathbf X^\top \mathbf X)^{-1} \mathbf X^\top \mathbf y = \mathbf U \mathbf U^\top \mathbf y.$

Подобранные значения PCA регрессии (ПЦР) с

компонентами определяются

{\hat{y}}_{r i d g e} = X β_{r i d g e} = X (X^{⊤} X + λ I)^{- 1} X^{⊤} y = U d i a g {\frac{s_{i}^{2}}{s_{i}^{2} + λ}} U^{⊤} y .

$\hat {\mathbf y}_\mathrm{ridge} = \mathbf X \beta_\mathrm{ridge} = \mathbf X (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1} \mathbf X^\top \mathbf y = \mathbf U\: \mathrm{diag}\left\{\frac{s_i^2}{s_i^2+\lambda}\right\}\mathbf U^\top \mathbf y.$

k

$k$

где есть

{\hat{y}}_{P C R} = X_{P C A} β_{P C R} = U d i a g {1, \dots, 1, 0, \dots 0} U^{⊤} y,

$\hat {\mathbf y}_\mathrm{PCR} = \mathbf X_\mathrm{PCA} \beta_\mathrm{PCR} = \mathbf U\: \mathrm{diag}\left\{1,\ldots, 1, 0, \ldots 0\right\}\mathbf U^\top \mathbf y,$

единиц, за которыми следуют нули.

k

$k$

Отсюда мы видим, что:

Если , то . $\lambda=0$ $\hat {\mathbf y}_\mathrm{ridge} = \hat {\mathbf y}_\mathrm{OLS}$
$\lambda>0$ $s_i$ $s_i^2 \approx \lambda$ и меньше) наказываются больше всего.
$k$ $\lambda=0$ $k$ $\lambda=\infty$ для остальных.
Это означает, что регрессия гребня может рассматриваться как «гладкая версия» ПЦР.

$s_i$ $\mathbf X$
Регрессия гребня имеет тенденцию работать лучше на практике (например, иметь более высокую перекрестную валидацию производительности).
$\lambda \to 0$ $\hat {\mathbf y}_\mathrm{ridge} \to \hat {\mathbf y}_\mathrm{OLS}$ $s_i$

Одним хорошим примером являются «Элементы статистического обучения». , раздел 3.4.1 «Регрессия хребта».

Смотрите также эту ветку: Интерпретация регуляризации гребня в регрессии и, в частности, ответ @BrianBorchers.

амеба говорит восстановить монику
источник

Будет ли когда-нибудь иметь смысл устанавливать пороговые значения, max (

s_{i} -

$s_i -$ молотить, 0)? (Лассо регрессия мягких порогов

β_{L e a s t - s q u a r e s}

$\beta_{Least-squares}$ , а не спектр.)

Денис

Одна поправка к вашему в противном случае отличному ответу: подогнанные значения в регрессии на первом

k

$k$ ПК на самом деле

U diag (1_{1}, 1_{2}, . . ., 1_{k}, 0, . . ., 0) U^{T} y

$\mathbf{U} {\text{diag}}(1_1,1_2,...,1_k,0,...,0)\mathbf{U}^T\mathbf{y}$ This is an exercise at the end of the chapter that you mention.

Matthias Schmidtblaicher

This is beautiful.

xxx222

Elements of Statistical Learning has a great discussion on this connection.

The way I interpreted this connection and logic is as follows:

PCA is a Linear Combination of the Feature Variables, attempting to maximize the variance of the data explained by the new space.
Data that suffers from multicollinearity (or more predictors than rows of data) leads to a Covariance Matrix that does not have full Rank.
With this Covariance Matrix, we cannot invert to determine the Least Squares solution; this causes the numerical approximation of the Least Squares Coefficients to blow up to infinity.
Ridge Regression introduces the penalty Lambda on the Covariance Matrix to allow for matrix inversion and convergence of the LS Coefficients.

The PCA connection is that Ridge Regression is calculating the Linear Combinations of the Features to determine where the multicollinearity is occurring. The Linear Combinations of Features (Principle Component Analysis) with the smallest variance (and hence smaller singular values and smaller eigenvalues in PCA) are the ones penalized the hardest.

Think of it this way; for the Linear Combinations of Features with smallest variance, we have found the Features that are most alike, hence causing the multicollinearity. Since Ridge does not reduce the Feature set, whichever direction this Linear Combination is describing, the original Feature corresponding to that direction is penalized the most.

MDornbos
источник

Consider the linear equation

X β = y,

$\mathbf X \beta = \mathbf y\,,$ and the SVD of

X

$\mathbf X$ ,

X = U S V^{T},

$\mathbf X = \mathbf U \,\mathbf S \,\mathbf V^T,$ where

S = diag (s_{i})

$\mathbf S = \text{diag}(s_i)$ is the diagonal matrix of singular values.

Ordinary least squares determines the parameter vector $\beta$ as

β_{O L S} = V S^{- 1} U^{T}

$\beta_{OLS} = \mathbf V \,\mathbf S^{-1} \,\mathbf U^T$ However, this approach fails as soon there is one singular value which is zero (as then the inverse does not exists). Moreover, even if no

s_{i}

$s_i$ is excatly zero, numerically small singular values can render the matrix ill-conditioned and lead to a solution which is highly susceptible to errors.

Ridge regression and PCA present two methods to avoid these problems. Ridge regression replaces $\mathbf S^{-1}$ in the above equation for $\beta$ by

\begin{aligned} S_{ridge}^{- 1} & = diag (\frac{s_{i}}{s_{i}^{2} + α}), \\ β_{ridge} & = V S_{ridge}^{- 1} U^{T} \end{aligned}

$\begin{align} \mathbf S^{-1}_{\text{ridge}} &= \text{diag}\bigg(\frac{s_i}{s^2_i+\alpha}\bigg),\\ \beta_{\text{ridge}} &= \ \mathbf V \,\mathbf S_{\text{ridge}}^{-1} \,\mathbf U^T \end{align}$

PCA replaces $\mathbf S^{-1}$ by

\begin{aligned} S_{PCA}^{- 1} & = diag (\frac{1}{s_{i}} θ (s_{i} - γ)), \\ β_{PCA} & = V S_{PCA}^{- 1} U^{T} \end{aligned}

$\begin{align} \mathbf S^{-1}_{\text{PCA}} &= \text{diag}\bigg(\frac{1}{s_i} \, \theta(s_i-\gamma)\bigg)\,,\\ \beta_{\text{PCA}} &= \ \mathbf V \,\mathbf S_{\text{PCA}}^{-1} \,\mathbf U^T \end{align}$ wehre

θ

$\theta$ is the step function, and

γ

$\gamma$ is the threshold parameter.

Both methods thus weaken the impact of subspaces corresponding to small values. PCA does that in a hard way, while the ridge is a smoother approach.

More abstractly, feel free to come up with your own regularization scheme

S_{myReg}^{- 1} = diag (R (s_{i})),

$\mathbf S^{-1}_{\text{myReg}} = \text{diag}\big(R(s_i)\big)\,,$ where

R (x)

$R(x)$ is a function that should approach zero for

x \to 0

$x\rightarrow 0$ and

R (x) \to x^{- 1}

$R(x)\rightarrow x^{-1}$ for

x

$x$ large. But remember, there's no free lunch.

davidhigh
источник