Относится ли корреляция или коэффициент детерминации к проценту значений, которые находятся вдоль линии регрессии?

12

Корреляция является мерой линейной связи между двумя переменными. Коэффициент детерминации, r 2 , является мерой того, насколько изменчивость в одной переменной может быть «объяснена» вариацией в другой.rr2

Например, если - корреляция между двумя переменными, тогда r 2 = 0,64 . Следовательно, 64% изменчивости в одном можно объяснить различиями в другом. Правильно?r=0.8r2=0.64

Мой вопрос, для заявленного примера, является ли одно из следующих утверждений правильным?

  1. 64% значений находятся вдоль линии регрессии
  2. 80% значений приходится на линию регрессии
Bradex
источник
Термин «падать вместе» неточен. Похоже, что, по крайней мере, некоторые ответы интерпретируют его как «лежащий точно», и там ответ явно нет (хотя эта идея может привести к интересной мере линейной ассоциации, которая может быть подходящей в некоторых конкретных ситуациях - например, там, где есть было смесью шума и ошибок в течение большей части времени, а иногда и с ошибками, как в случае с каким-либо загрязняющим процессом - и тогда вы бы оценили долю незагрязненных данных). Если вы имели в виду нечто иное, чем «лежать точно», вам нужно будет указать, что это за значение.
Glen_b

Ответы:

8

Первая часть этого в основном правильна - но это 64% ​​вариаций объясняется моделью. В простой линейной регрессии: Y ~ X, если составляет 0,64, это означает, что 64% ​​отклонения Y определяется линейной зависимостью между Y и X. Возможно иметь сильную связь с очень низким R 2 , если связь сильно нелинейная.R2R2

Что касается ваших двух пронумерованных вопросов, ни один из них не является правильным. Действительно, возможно, что ни одна из точек не может лежать точно на линии регрессии. Это не то, что измеряется. Скорее, это вопрос того, насколько близка средняя точка к линии. Если все или почти все точки близки (даже если ни одна не находится точно на линии), тогда будет высоким. Если большинство точек далеко от линии, R 2 будет низким. Если большинство точек близко, а несколько далеко, то регрессия неверна (проблема выбросов). Другие вещи могут пойти не так, как надо.R2R2

Кроме того, я оставил понятие «далеко» довольно расплывчатым. Это будет зависеть от того, насколько распространены X. Уточнение этих понятий является частью того, что вы изучаете в курсе регрессии; Я не буду вдаваться в это здесь.

Питер Флом - Восстановить Монику
источник
Ну, это многое прояснило для меня! Спасибо Мимшот и Питер Флом! Большое спасибо вам обоим! :)
Bradex
1
+1, хороший ответ, не могли бы вы добавить что-то вроде «Действительно, [возможно, что] ни один из пунктов не может лгать ...». Кроме того, возможно, стоит обсудить, что представление о том, как далеко находятся точки от линии, также зависит от того, насколько разнесены X.
gung - Восстановить Монику
2

Ни 1, ни 2 не верны.

yyxx

yi=b+mxi+ϵi

ϵiN(0,σ2)R2=.64yx

y^i=b+mxi

потом

10.64=0.36=var(yyy^y^)var(yy)
Mimshot
источник