В линейной регрессии я обнаружил восхитительный результат, который, если мы подходим к модели
затем, если мы стандартизируем и центрируем данные , и ,
Мне кажется, что версия с двумя переменными для регрессии, что приятно.
Но единственное доказательство, которое я знаю, ни в коем случае не является конструктивным или проницательным (см. Ниже), и, тем не менее, чтобы взглянуть на него, кажется, что оно должно быть легко понятным.
Пример мысли:
- Параметры и дают нам «пропорцию» и в , и поэтому мы берем соответствующие пропорции их корреляций ...
- В ; s частичные корреляции, представляет собой квадрат коэффициента множественной корреляции ... корреляции умноженные на частичных корреляций ...
- Если мы сначала ортогонализируем, то s будет ... имеет ли этот результат какой-то геометрический смысл?
Кажется, ни одна из этих тем никуда не ведет за мной. Может ли кто-нибудь дать четкое объяснение того, как понять этот результат.
Неудовлетворительное Доказательство
а также
QED.
regression
linear-model
r-squared
proof
Korone
источник
источник
Ответы:
Шляпная матрица идемпотентна.
(Это линейно-алгебраический способ утверждения, что OLS является ортогональной проекцией вектора ответа на пространство, охватываемое переменными.)
Напомним, что по определению
где
является суммой квадратов (по центру) прогнозируемых значений и
является суммой квадратов (центрированных) значений ответа. Стандартизация заранее к единице дисперсии также подразумеваетY
Напомним также, что оценочные коэффициенты определяются как
откуда
где является «шапку матрица» осуществления проекции Y на его наименьших квадратов Y . Он симметричен (что очевидно из самой его формы) и идемпотентен . Вот доказательство последнего для тех, кто не знаком с этим результатом. Это просто перемешивание скобок:H Y Y^
Следовательно
Решающий шаг в середине использовал идемпотентность шляпной матрицы. Правая сторона ваша волшебная формула, потому что представляет собой (строка) вектор коэффициентов корреляции междуYи столбцовX.1nY′X Y X
источник
^{-}
вместо^{-1}
везде?Следующие три формулы хорошо известны, они встречаются во многих книгах по линейной регрессии. Их нетрудно вывести.
points X axes
axes X axes
То же самое верно для любого числа предикторов X. К сожалению, невозможно нарисовать одинаковые картинки со многими предикторами.
источник