Линейная регрессия, когда вы знаете только

13

Пусть Xβ=Y .

Мы не знаем , Y точно, только его корреляции с каждым предиктором, XtY .

Обычное решение наименьших квадратов (OLS) - это и здесь нет проблем.β=(XtX)1XtY

Но предположим, что близок к единственному (мультиколлинеарность), и вам нужно оценить оптимальный параметр гребня. Все методы , кажется, нужны точные значения .XtXY

Есть ли альтернативный метод, когда известен только ?XtY

выщерблять
источник
интересный вопрос. Возможно, какой-то алгоритм EM сработал бы ...
вероятностная
Я не понимаю, вы не можете использовать перекрестную проверку для оценки оптимального параметра гребня?
Пардис
@Pardis: В вопросе не указана функция потерь, поэтому мы не знаем, что такое оптимальный . Вы видите проблему, с которой мы сталкиваемся, если функция потерь - MSE?
кардинал
1
@JohnSmith: Вы намекаете на то, к чему я клонил. Нет указаний на то, как измерить «оптимальность». Что вы фактически делаете, так это вводите другую метрику (функцию расстояния) для измерения «качества» прогноза или соответствия. Я подозреваю, что нам нужно больше деталей от ОП, чтобы продвинуться очень далеко.
кардинал
1
@Pardis: Как вы заметили, поиск оценок не проблема. :) Однако, если вы решите провести перекрестную проверку, как вы собираетесь оценивать MSE вне выборки, т. Е. По левому смещению для каждой итерации? :)
кардинал

Ответы:

8

Это интересный вопрос. Удивительно, но при определенных допущениях можно что-то сделать, но существует потенциальная потеря информации об остаточной дисперсии. Зависит отX сколько потеряно.

Рассмотрим следующее разложение по сингулярным значениям из X с U п × р матрица с ортонормированных столбцов, D диагональная матрица с положительными значениями сингулярных d 1d 2. , , d p > 0 в диагонали и V a p × p в ортогональной матрице. Тогда столбцы UX=UDVtXUn×pDd1d2...dp>0Vp×pU образуют ортонормированный базис для пространства столбцов Xи Y только. - вектор коэффициентов для проекции Y на это пространство столбца при расширении вбазисе U- столбца. Из формулы мы видим, что Z вычислимо из знания X и X t

Z=UtY=D1VtVDUtY=D1VtXtY
YUZXXtY

Так как хребет регрессионный прогностическим для данного может быть вычислена как Y = Х ( Х т Х + λ I ) - 1 х т У = U D ( D 2 + λ I ) - 1 D U T Y = U D ( D 2 + λ I ) - 1λ мы видим, что коэффициенты для предиктора регрессии гребня в

Y^=X(XtX+λI)1XtY=UD(D2+λI)1DUtY=UD(D2+λI)1DZ
основой -column являются Z = D ( D 2 + λ I ) - 1 D Z . Теперь сделаем предположение о том, что Y имеет n- мерное среднее ξ и ковариационную матрицу σ 2 I n . Тогда Z имеет p- мерное среднее U t ξ и ковариационную матрицу σ 2 I p . Если мы представим независимый Y НовыйU
Z^=D(D2+λI)1DZ.
Ynξσ2InZpUtξσ2IpYNew с тем же распределением, что и (все условно на X отсюда), то соответствующий ZYX имеет такое же распределение, что иZ,и независимо и E | | Y New - Y | | 2ZNew=UtYNewZ При этом третье равенство следует ортогональностьYNew-UZНовогоиUZNew-U Z и четвертое темчтоUимеет ортонормированные столбцы. ВеличинаErr0является ошибкой, о которой мы не можем получить никакой информации, но она не зависит отλ
Е||Yновый-Y^||2знак равноЕ||Yновый-UZновый+UZновый-UZ^||2знак равноЕ||Yновый-UZновый||2+Е||UZновый-UZ^||2знак равнозаблуждаться0+Е||Zновый-Z^||2,
Yновый-UZновыйUZновый-UZ^Uзаблуждаться0λили. Чтобы минимизировать ошибку предсказания с левой стороны, мы должны минимизировать второй член с правой стороны.

По стандартному вычислению Здесьdf(λ)называется эффективными степенями свободы регрессии гребня с параметромλ. Беспристрастная оценкаE| | Z-Z| | 2является ошибкой(λ)=| | Z-Z| | 2=pi=1-d

E||ZNewZ^||2=E||ZZ^||2+2i=1pcov(Zi,Z^i)=E||ZZ^||2+2σ2i=1pdi2di2+λdf(λ).
df(λ)λE||ZZ^||2
err(λ)=||ZZ^||2=i=1p(1di2di2+λ)2Zi2.

Мы объединяем это с (несмещенной) оценкой в E | | Z New - Z | | 2, учитывая, что мы знаем σ 2 , который нам необходимо минимизировать. Очевидно, это может быть сделано только в том случае, если мы знаем σ 2 или имеем разумное предположение или оценку σ 2 .

err(λ)+2σ2df(λ)
E||ZNewZ^||2σ2σ2σ2

Оценка может быть более проблематичной. Можно показать, что E | | Z - Z | | 2 = σ 2 ( p - p i = 1 d 2 iσ2

E||ZZ^||2=σ2(pi=1pdi2di2+λ(2di2di2+λ)d(λ))+bias(λ)2.
λσ2
σ^2=1pd(λ)||ZZ^||2.
If this will work depends a lot on X.

For some details see Section 3.4.1 and Chapter 7 in ESL or perhaps even better Chapter 2 in GAM.

NRH
источник
0

Define β as in the question and β(λ,K)=[(XTX)KK+λI]1(XTY)K for various parameters λ and sets K of sample labels. Then e(λ,K):=Xβ(λ,K)Y2XβY2 is computable since the unknown Y2 drops out when expanding both norms.

This leads to the following algorithm:

  • Compute the e(λ,K) for some choices of the training set K.
  • Plot the results as a function of λ.
  • Accept a value of λ where the plot is flattest.
  • Use β=[XTX+λI]1XTY as the final estimate.
Arnold Neumaier
источник
1
Я предполагаю, "где сюжет самый плоский" будет в λ очень маленький, примерно как 0 :)
jbowman
@jbowman: This will happen only if the problem is well-conditioned and needs no regularization, then λ=0 is indeed adequate. In the ill-conditioned case, the prediction of the items outside K will be poor because of overfitting, and e(λ,K) will therefore be large.
Арнольд Ноймайер
3
@ArnoldNeumaier: (ИксTY)Кне вычислимо Мы знаем только корреляцию с каждым предиктором.(ИксTY) находится в «домене предиктора», а не в «домене Y» (если N - размер выборки и p - число предикторов, у нас есть только p значений, по одному для каждого предиктора).
Jag
@Jag: Then there is not enough information for selecting λ. But XTY must have been collected somehow. If during its collection you partition the sample into k batches and assemble the XTY separately for each batch then one can reserve one batch each for cross validation.
Арнольд Ноймайер
@ArnoldNeumaier: XTY are externally given, don't collected.
Jag