Геометрическая интерпретация коэффициента множественной корреляции и коэффициента детерминации

24

Меня интересует геометрический смысл множественной корреляции и коэффициента детерминации в регрессии или в векторной записи,R 2 y i = β 1 + β 2 x 2 , i + + β k x k , i + ϵ iRR2yi=β1+β2x2,i++βkxk,i+ϵi

y=Xβ+ϵ

Здесь матрица дизайна имеет строк и столбцов, первым из которых является , вектор единиц, соответствующий перехвату . n k x 1 = 1 n β 1Xnkx1=1nβ1

Геометрия более интересна в мерном пространстве предметов, нежели в мерном пространстве переменных. Определите матрицу шляпы:кnk

H=X(XX)1X

Это ортогональная проекция на пространство столбцов , т. Е. Плоскость через начало координат, охватываемая векторами, представляющими каждую переменную , первая из которых . Затем проецирует вектор наблюдаемых откликов на свою "тень" на плоскость, вектор подходящих значений , и если мы посмотрев вдоль пути проекции, мы увидим вектор невязок образует третью сторону треугольника. Это должно дать нам два пути к геометрической интерпретацииXkxi1nHyy^=Hye=yy^R2:

  1. Квадрат коэффициента множественной корреляции , который определяется как корреляция между и . Это будет выглядеть геометрически как косинус угла.Ryy^
  2. В терминах длин векторов: например, .SSresidual=i=1nei2=e2

Я был бы рад увидеть краткий отчет, который объясняет:

  • Более мелкие детали для (1) и (2),
  • Почему (1) и (2) эквивалентны,
  • Вкратце, как геометрическая проницательность позволяет нам визуализировать основные свойства R2 , например, почему он становится равным 1, когда дисперсия шума становится равной 0. (В конце концов, если мы не можем интуитивно понять нашу визуализацию, то это не более чем Приятная картина.)

Я ценю, что это более просто, если переменные центрируются первыми, что убирает перехват из вопроса. Однако в большинстве описаний учебников, которые вводят множественную регрессию, матрица дизайна , как я изложил. Конечно, было бы хорошо, если экспозиция копается в пространстве, охватываемом центрированными переменными, но для понимания линейной алгебры из учебника было бы очень полезно связать это обратно с тем, что происходит геометрически в нецентрированной ситуации. Действительно проницательный ответ мог бы объяснить , что именно разрушение геометрически , когда термин перехватывать отбрасывается - то есть , когда вектор1 нX1nудаляется из связующего набора. Я не думаю, что этот последний момент можно решить, рассматривая только центрированные переменные.

тарпон
источник

Ответы:

47

Если есть термин константы в модели затем лежит в пространстве столбцов матрицы X (как это делает ˉ Y 1 н , которые придут в полезном в дальнейшем). Оборудованная Y представляет собой ортогональную проекцию наблюдаемой Y на плоскую , образованной этой колонке пространства. Это означает , что вектор остатков е = у - у перпендикулярна к квартире, и , следовательно , к 1 н . Рассматривая скалярное произведение, мы можем видеть n i = 1 e i = 0 , поэтому компоненты1nXY¯1nY^Ye=yy^1ni=1nei=0 должно суммироваться до нуля. Так как Y я = ^ Y я + е я мы приходимвыводучто Σ п я = 1 Y я = Σ п я = 1 ^ Y я такчто оба подогнанные и наблюдаемые реакции имеют среднее ˉ Y .eYi=Yi^+eii=1nYi=i=1nYi^Y¯

Vectors in subject space of multiple regression

Пунктирные линии на диаграмме представляют собой и Y - ˉ Y 1 п , которые являются главным образом векторами для наблюдаемых и подогнанных ответов. Косинус угла & thetas поэтому между этими векторами будет соотношение Y и Y , который по определению является множественный коэффициент корреляции R . Треугольник эти векторы образуют с вектором невязок является прямоугольным , так как Y - ··· Y 1 п лежит в квартире , но YY¯1nY^Y¯1nθYY^RY^Y¯1n ортогонально этому. Следовательно:e

R=cos(θ)=adjhyp=Y^Y¯1nYY¯1n

Мы также можем применить Пифагор к треугольнику:

YY¯1n2=YY^2+Y^Y¯1n2

Что может быть более знакомо, как:

i=1n(YiY¯)2=i=1n(YiY^i)2+i=1n(Y^iY¯)2

Это разложение сумм квадратов, .SStotal=SSresidual+SSregression

Стандартное определение коэффициента детерминации:

R2=1SSresidualSStotal=1i=1n(yiy^i)2i=1n(yiy¯)2=1YY^2YY¯1n2

Когда суммы квадратов можно разделить, требуется некоторая прямая алгебра, чтобы показать, что это эквивалентно формулировке «объясненная пропорция»,

R2=SSregressionSStotal=i=1n(y^iy¯)2i=1n(yiy¯)2=Y^Y¯1n2YY¯1n2

Существует геометрический способ увидеть это из треугольника с минимальной алгеброй. Формула определения дает и с помощью базовой тригонометрии мы можем упростить это до cos 2 ( θ ) . Это связь между R 2 и R .R2=1sin2(θ)cos2(θ)R2R

Обратите внимание, насколько важно, чтобы в этом анализе был установлен термин «перехват», чтобы было в пространстве столбца. Без этого, остатки не подвели к нулю, а средний подогнанных значений не совпали с средним значением Y . В этом случае мы не могли бы нарисовать треугольник; суммы квадратов не разложились бы в пифагорейской манере; R - не имел бы часто цитируемый вид S S р / S S общий и не быть квадрат R . В этой ситуации некоторые программы (в том числе ) используют другую формулу для R 2 в целом1nYR2SSreg/SStotalRRR2,

тарпон
источник
1
+1 Очень хорошая рецензия и рисунок. Я удивлен, что у меня есть только один одинокий голос.
говорит амеба, восстанови Монику
2
+1. Обратите внимание, что рисунок вашего ответа с «пространством столбцов X», Y, Ypred в качестве векторов и т. Д. - это то, что известно в многомерной статистике как «(уменьшенное) представление предметного пространства» ( см. Дополнительные ссылки, где я его использовал ).
ttnphns