Пусть .
Мы не знаем , точно, только его корреляции с каждым предиктором, .
Обычное решение наименьших квадратов (OLS) - это и здесь нет проблем.
Но предположим, что близок к единственному (мультиколлинеарность), и вам нужно оценить оптимальный параметр гребня. Все методы , кажется, нужны точные значения .
Есть ли альтернативный метод, когда известен только ?
regression
multicollinearity
выщерблять
источник
источник
Ответы:
Это интересный вопрос. Удивительно, но при определенных допущениях можно что-то сделать, но существует потенциальная потеря информации об остаточной дисперсии. Зависит отX сколько потеряно.
Рассмотрим следующее разложение по сингулярным значениям из X с U п × р матрица с ортонормированных столбцов, D диагональная матрица с положительными значениями сингулярных d 1 ≥ d 2 ≥ . , , ≥ d p > 0 в диагонали и V a p × p в ортогональной матрице. Тогда столбцы UX=UDVt X U n×p D d1≥d2≥...≥dp>0 V p×p U образуют ортонормированный базис для пространства столбцов X и
Y только.
- вектор коэффициентов для проекции Y на это пространство столбца при расширении вбазисе U- столбца. Из формулы мы видим, что Z вычислимо из знания X и X t
Так как хребет регрессионный прогностическим для данного может быть вычислена как Y = Х ( Х т Х + λ I ) - 1 х т У = U D ( D 2 + λ I ) - 1 D U T Y = U D ( D 2 + λ I ) - 1λ
мы видим, что коэффициенты для предиктора регрессии гребня в
По стандартному вычислению Здесьdf(λ)называется эффективными степенями свободы регрессии гребня с параметромλ. Беспристрастная оценкаE| | Z-Z| | 2является ошибкой(λ)=| | Z-Z| | 2=p∑i=1-d
Мы объединяем это с (несмещенной) оценкой в E | | Z New - Z | | 2, учитывая, что мы знаем σ 2 , который нам необходимо минимизировать. Очевидно, это может быть сделано только в том случае, если мы знаем σ 2 или имеем разумное предположение или оценку σ 2 .
Оценка может быть более проблематичной. Можно показать, что E | | Z - Z | | 2 = σ 2 ( p - p ∑ i = 1 d 2 iσ2
For some details see Section 3.4.1 and Chapter 7 in ESL or perhaps even better Chapter 2 in GAM.
источник
Defineβ as in the question and β(λ,K)=[(XTX)KK+λI]−1(XTY)K for various parameters λ and sets K of sample labels.
Then e(λ,K):=∥Xβ(λ,K)−Y∥2−∥Xβ−Y∥2 is computable since the unknown ∥Y∥2 drops out when expanding both norms.
This leads to the following algorithm:
источник