Я хочу полностью понять понятие описывающее количество вариаций между переменными. Каждое веб-объяснение немного механическое и тупое. Я хочу «получить» концепцию, а не просто механически использовать числа.
Например: количество изученных часов и результаты теста
= 0,8
= .64
- Итак, что это значит?
- 64% вариабельности результатов теста можно объяснить часами?
- Как мы узнаем это просто по квадрату?
regression
correlation
variance
JackOfAll
источник
источник
Ответы:
Начните с основной идеи вариации. Ваша начальная модель - это сумма квадратов отклонений от среднего. Значение R ^ 2 - это доля этого отклонения, которая учитывается с использованием альтернативной модели. Например, R-квадрат говорит вам, от какой вариации Y вы можете избавиться, суммируя квадрат расстояний от линии регрессии, а не от среднего значения.
Я думаю, что это станет совершенно ясно, если мы подумаем о простой задаче регрессии. Рассмотрим типичную диаграмму рассеяния, где у вас есть предиктор X по горизонтальной оси и ответ Y по вертикальной оси.
Среднее значение представляет собой горизонтальную линию на графике, где Y является постоянной величиной. Общее отклонение Y представляет собой сумму квадратов разностей между средним значением Y и каждой отдельной точкой данных. Это расстояние между средней линией и каждой отдельной точкой в квадрате и суммировании.
Вы также можете рассчитать другую меру изменчивости после того, как у вас будет линия регрессии из модели. Это разница между каждой точкой Y и линией регрессии. Вместо каждого (Y - среднего) квадрата мы получаем (Y - точка на линии регрессии) квадрат.
Если линия регрессии отличается от горизонтальной, мы получим меньшее общее расстояние, когда будем использовать эту подогнанную линию регрессии, а не среднее значение - то есть, будет меньше необъяснимых изменений. Соотношение между дополнительным объясненным изменением и исходным изменением - это ваше R ^ 2. Это пропорция исходного отклонения в вашем ответе, которая объясняется подгонкой этой линии регрессии.
Вот некоторый R-код для графика со средним, линией регрессии и отрезками от линии регрессии до каждой точки, чтобы помочь визуализировать:
источник
Математическая демонстрация взаимосвязи между ними здесь: корреляция Пирсона и регрессионный анализ методом наименьших квадратов .
Я не уверен, есть ли геометрическая или какая-либо другая интуиция, которая может быть предложена кроме математики, но если я могу думать о ней, я обновлю этот ответ.Обновление: Геометрическая Интуиция
альтернативный текст http://a.imageshack.us/img202/669/linearregression1.png
По теореме Пифагора имеем:
Поэтому у нас есть необходимые отношения:
Надеюсь, это поможет.
источник
Регрессия По глазам апплет может быть полезно , если вы пытаетесь развить некоторые интуиции.
Это позволяет генерировать данные, а затем угадывать значение для R , которое затем можно сравнить с фактическим значением.
источник