Часто утверждается, что квадрат выборочной корреляции эквивалентен коэффициенту определения для простой линейной регрессии. Я не смог продемонстрировать это сам и был бы признателен за полное доказательство этого факта.
regression
correlation
edwardsm88
источник
источник
Ответы:
Кажется, что есть некоторые различия в обозначениях: в простой линейной регрессии я обычно видел фразу «выборочный коэффициент корреляции» с символом в качестве ссылки на корреляцию между наблюдаемыми значениями и . Это обозначение, которое я принял для этого ответа. Я также видел ту же фразу и символ, использованный для обозначения корреляции между наблюдаемым и подобранным ; в моем ответе я говорил об этом как «множественный коэффициент корреляции» и используется символ . Этот ответ объясняет, почему коэффициент детерминации является как квадратом и квадратомr x y y y^ R r R , поэтому не должно иметь значения, какое использование было предназначено.
Результат следует в одной строке алгебры, как только некоторые прямые факты о корреляции и значении установлены, поэтому вы можете предпочесть перейти к квадратному уравнению. Я предполагаю, что нам не нужно доказывать основные свойства ковариации и дисперсии, в частности:r2 R
Обратите внимание, что последнее может быть получено из первого, если мы знаем, что ковариация симметрична и что . Отсюда мы получаем еще один базовый факт о корреляции. Для и до тех пор, пока и имеют ненулевые дисперсии,Var(X)=Cov(X,X) a≠0 X Y
Здесь - это функция signum или sign : ее значение равно если и если , Также верно, что если , но этот случай нас не касается: будет константой, поэтому в знаменатель, и мы не можем рассчитать корреляцию. Аргументы симметрии позволят обобщить этот результат для :sgn(a) sgn(a)=+1 a>0 sgn(a)=−1 a<0 sgn(a)=0 a=0 aX+b Var(aX+b)=0 a,c≠0
Нам не понадобится эта более общая формула для ответа на текущий вопрос, но я включил ее, чтобы подчеркнуть геометрию ситуации: она просто утверждает, что корреляция неизменна, когда переменная масштабируется или переводится, но меняет знак, когда переменная отражение.
Нам нужно еще один факт: для линейной модели , включающей постоянное слагаемое, коэффициент детерминации представляет собой квадрат множественного коэффициента корреляции , что корреляция между наблюдаемыми ответов и в модели подобранными значениями . Это относится как для нескольких простых и регрессий, но давайте ограничим наше внимание на простой линейной модели . Результат следует из наблюдения, что - это масштабированная, возможно отраженная и переведенная версия :R2 R Y Y^ Y^=β^0+β^1X Y^ X
Таким образом, где знак соответствует знаку предполагаемого наклона, что гарантирует, что не будет отрицательным. Ясно, что .R=±r R R2=r2
Предыдущий аргумент был упрощен тем, что не приходилось учитывать суммы квадратов. Чтобы достичь этого, я пропустил детали взаимосвязи между , о котором мы обычно думаем в терминах сумм квадратов, и , для которого мы думаем о корреляциях подходящих и наблюдаемых ответов. Символы делают отношения кажущимися тавтологическими, но это не так, и связь нарушается, если в модели нет термина «перехват»! Я дам краткий набросок геометрического аргумента об отношениях между и взятый из другого вопроса : диаграмма нарисована в мерном предметном пространствеR2 R R2=(R)2 R R2 n Таким образом, каждая ось (не показана) представляет собой единицу наблюдения, а переменные показаны в виде векторов. матрицы проектирования являются вектор (для постоянного члена) и вектор наблюдений объясняющей переменной, поэтому пространство столбцов является двумерной плоскостью.X 1n
Подгонка является ортогональной проекцией наблюдаемого на пространство столбцов . Это означает, что вектор невязок перпендикулярен плоскости и, следовательно, . Точечное произведение равно . Так как остатки суммируются до нуля и , то так что как подходящие, так и наблюдаемые ответы имеют среднее значение . Пунктирные линии на диаграмме иY^ Y X e=y−y^ 1n 0=1n⋅e=∑ni=1ei Yi=Yi^+ei ∑ni=1Yi=∑ni=1Yi^ Y¯ Y−Y¯1n Y^−Y¯1n , следовательно , являются главным образом векторами для наблюдаемых и подогнанных ответов, а косинус угла между ними их соотношением .θ R
Треугольник, который эти векторы образуют с вектором невязок, является прямоугольным, поскольку лежит в плоскости, а ортогональна ей. Применяя Пифагор:Y^−Y¯1n e
Это просто разложение сумм квадратов, . Обычная формула для коэффициента детерминации равна которая в этом треугольнике равна так действительно квадрат . Возможно, вы более знакомы с формулой , которая сразу дает , но обратите внимание, что является более общим и, как мы только что видели, уменьшится доSStotal=SSresidual+SSregression 1−SSresidualSStotal 1−sin2θ=cos2θ R R2=SSregressionSStotal cos2θ 1−SSresidualSStotal SSregressionSStotal если постоянный член включен в модель .
источник
определяется как Квадратный коэффициент корреляции выборки: эквивалентно, что легко проверить с помощью: (см. Verbeek , §2.4)R2
источник