Корреляция является мерой линейной связи между двумя переменными. Коэффициент детерминации, r 2 , является мерой того, насколько изменчивость в одной переменной может быть «объяснена» вариацией в другой.
Например, если - корреляция между двумя переменными, тогда r 2 = 0,64 . Следовательно, 64% изменчивости в одном можно объяснить различиями в другом. Правильно?
Мой вопрос, для заявленного примера, является ли одно из следующих утверждений правильным?
- 64% значений находятся вдоль линии регрессии
- 80% значений приходится на линию регрессии
regression
correlation
r-squared
Bradex
источник
источник
Ответы:
Первая часть этого в основном правильна - но это 64% вариаций объясняется моделью. В простой линейной регрессии: Y ~ X, если составляет 0,64, это означает, что 64% отклонения Y определяется линейной зависимостью между Y и X. Возможно иметь сильную связь с очень низким R 2 , если связь сильно нелинейная.р2 р2
Что касается ваших двух пронумерованных вопросов, ни один из них не является правильным. Действительно, возможно, что ни одна из точек не может лежать точно на линии регрессии. Это не то, что измеряется. Скорее, это вопрос того, насколько близка средняя точка к линии. Если все или почти все точки близки (даже если ни одна не находится точно на линии), тогда будет высоким. Если большинство точек далеко от линии, R 2 будет низким. Если большинство точек близко, а несколько далеко, то регрессия неверна (проблема выбросов). Другие вещи могут пойти не так, как надо.р2 р2
Кроме того, я оставил понятие «далеко» довольно расплывчатым. Это будет зависеть от того, насколько распространены X. Уточнение этих понятий является частью того, что вы изучаете в курсе регрессии; Я не буду вдаваться в это здесь.
источник
http://economictheoryblog.com/2014/11/05/the-coefficient-of-determination-latex-r2/
http://economictheoryblog.com/2014/11/05/proof/
источник
Ни 1, ни 2 не верны.
потом
источник