Коэффициент определения (

21

Я хочу полностью понять понятие описывающее количество вариаций между переменными. Каждое веб-объяснение немного механическое и тупое. Я хочу «получить» концепцию, а не просто механически использовать числа.р2

Например: количество изученных часов и результаты теста

р = 0,8

р2 = .64

  • Итак, что это значит?
  • 64% вариабельности результатов теста можно объяснить часами?
  • Как мы узнаем это просто по квадрату?
JackOfAll
источник
Ваш вопрос не о R против R-квадрат (вы понимаете , что 0.82знак равно0,64 ) речь идет о толковании р2 . Пожалуйста, переформулируйте название.
Робин Жирар
аналогичный вопрос: stats.stackexchange.com/questions/28139/…
Абэ
@amoeba согласился, я вытащил тег.
Бретт
Вы должны N , чтобы определить значение. Также см. Stats.stackexchange.com/a/265924/99274 .
Карл

Ответы:

27

Начните с основной идеи вариации. Ваша начальная модель - это сумма квадратов отклонений от среднего. Значение R ^ 2 - это доля этого отклонения, которая учитывается с использованием альтернативной модели. Например, R-квадрат говорит вам, от какой вариации Y вы можете избавиться, суммируя квадрат расстояний от линии регрессии, а не от среднего значения.

Я думаю, что это станет совершенно ясно, если мы подумаем о простой задаче регрессии. Рассмотрим типичную диаграмму рассеяния, где у вас есть предиктор X по горизонтальной оси и ответ Y по вертикальной оси.

Среднее значение представляет собой горизонтальную линию на графике, где Y является постоянной величиной. Общее отклонение Y представляет собой сумму квадратов разностей между средним значением Y и каждой отдельной точкой данных. Это расстояние между средней линией и каждой отдельной точкой в ​​квадрате и суммировании.

Вы также можете рассчитать другую меру изменчивости после того, как у вас будет линия регрессии из модели. Это разница между каждой точкой Y и линией регрессии. Вместо каждого (Y - среднего) квадрата мы получаем (Y - точка на линии регрессии) квадрат.

Если линия регрессии отличается от горизонтальной, мы получим меньшее общее расстояние, когда будем использовать эту подогнанную линию регрессии, а не среднее значение - то есть, будет меньше необъяснимых изменений. Соотношение между дополнительным объясненным изменением и исходным изменением - это ваше R ^ 2. Это пропорция исходного отклонения в вашем ответе, которая объясняется подгонкой этой линии регрессии.

введите описание изображения здесь

Вот некоторый R-код для графика со средним, линией регрессии и отрезками от линии регрессии до каждой точки, чтобы помочь визуализировать:

library(ggplot2)
data(faithful)

plotdata <- aggregate( eruptions ~ waiting , data = faithful, FUN = mean) 

linefit1 <- lm(eruptions ~ waiting, data = plotdata)

plotdata$expected <- predict(linefit1)
plotdata$sign <- residuals(linefit1) > 0

p <- ggplot(plotdata, aes(y=eruptions, x=waiting, xend=waiting, yend=expected) )  

p  + geom_point(shape = 1, size = 3) +
     geom_smooth(method=lm, se=FALSE) + 
     geom_segment(aes(y=eruptions, x=waiting, xend=waiting, yend=expected, colour = sign),  
                  data = plotdata) +
     theme(legend.position="none")  +
     geom_hline(yintercept = mean(plotdata$eruptions), size = 1)
Brett
источник
> Соотношение между объясненным вариантом и исходным вариантом - ваше R ^ 2. Посмотрим, получил ли я это. Если исходное отклонение от среднего составляет 100, а отклонение регрессии - 20, то отношение = 20/100 = .2 Вы говорите, что R ^ 2 = .2 b / c учитывается 20% среднего отклонения (красный) для объясненного отклонения (зеленый) (в случае r = 1) Если исходное отклонение составляет 50, а отклонение регрессии составляет 0, то отношение = 0/50 = 0 = 0% отклонения от среднего значения ( красный) объясняется объясненным изменением (зеленый), я ожидаю, что R ^ 2 будет 1, а не 0.
JackOfAll
1
R ^ 2 = 1- (SSR / SST) или (SST-SSR) / SST. Итак, в ваших примерах R ^ 2 = 0,80 и 1,00. Разница между линией регрессии и каждой точкой заключается в том, что она не объясняется подгонкой. Остальное пропорция объясняется. В противном случае это совершенно верно.
Бретт
Я отредактировал последний абзац, чтобы сделать его немного понятнее. Концептуально (и в вычислительном отношении) все, что вам нужно, там. Может быть, было бы яснее на самом деле добавить формулу и сослаться на SST SSE и SSR, но потом я пытался понять это концептуально
Бретт
то есть: R ^ 2 - это доля общего отклонения от среднего (SST), которая представляет собой разницу между ожидаемым регрессионным значением и средним значением (SSE). В моем примере часов по сравнению со счетом значение регрессии было бы ожидаемым результатом теста, основанным на корреляции с изученными часами. Любое дополнительное отклонение от этого относится к ССР. Для данной точки часы, изученные переменная / регрессия, объясняли x% общего отклонения от среднего значения (SST). При высоком значении r «объясняется» большой процент SST по сравнению с SSR. При низком значении r «объяснено» означает более низкий процент SST по сравнению с SSR.
JackOfAll
@BrettMagill, я думаю, что ссылка на изображение не работает ...
Garrett
6

Математическая демонстрация взаимосвязи между ними здесь: корреляция Пирсона и регрессионный анализ методом наименьших квадратов .

Я не уверен, есть ли геометрическая или какая-либо другая интуиция, которая может быть предложена кроме математики, но если я могу думать о ней, я обновлю этот ответ.

Обновление: Геометрическая Интуиция

xYY

Yзнак равноИкс β+ε

Y1,Y2Икс1,Икс2

альтернативный текст http://a.imageshack.us/img202/669/linearregression1.png

βИкс βYβИксβ^βYY^знак равноИкс β^

Yзнак равноY^+ε^

YY^ε^β^

βИкс βε^

YYИксYY12+Y22YY^Y^

По теореме Пифагора имеем:

Y2знак равноY^2+ε^2

ИксY^2Y2соs(θ)знак равноY^Y

Поэтому у нас есть необходимые отношения:

YИкс

Надеюсь, это поможет.


источник
Я ценю вашу попытку помочь, но, к сожалению, это только ухудшило ситуацию в 10 раз. Вы действительно вводите тригонометрию, чтобы объяснить г ^ 2? Ты слишком умен, чтобы быть хорошим учителем!
JackOfAll
Я думал, что вы хотите знать, почему корреляция ^ 2 = R ^ 2. В любом случае, разные способы понимания одной и той же концепции помогают или, по крайней мере, такова моя точка зрения.
3

Регрессия По глазам апплет может быть полезно , если вы пытаетесь развить некоторые интуиции.

Это позволяет генерировать данные, а затем угадывать значение для R , которое затем можно сравнить с фактическим значением.

АРС
источник