В чем разница между корреляцией и простой линейной регрессией?

99

В частности, я имею в виду коэффициент корреляции Пирсона и момента произведения.

Нил Макгиган
источник
7
Обратите внимание, что одно из представлений о взаимосвязи между регрессией и корреляцией можно узнать из моего ответа здесь: в чем разница между выполнением линейной регрессии для y с x по сравнению с x с y? ,
gung - Восстановить Монику

Ответы:

114

В чем разница между корреляцией между и и линейной регрессией, предсказывающей из ?Y Y XXYYX

Во-первых, некоторые сходства :

  • стандартизированный коэффициент регрессии такой же, как коэффициент корреляции Пирсона
  • Квадрат коэффициента корреляции Пирсона такой же, как в простой линейной регрессииR2
  • Ни простая линейная регрессия, ни корреляция не отвечают непосредственно на вопросы причинности. Это важно, потому что я встречал людей , которые думают , что простая регрессия может магически позволить вывод , что вызывает .YXY

Во-вторых, некоторые отличия :

  • Уравнение регрессии (то есть ) можно использовать для прогнозирования на основе значенийY Xa+bXYX
  • Хотя корреляция обычно относится к линейным отношениям, она может относиться к другим формам зависимости, таким как полиномиальные или действительно нелинейные отношения
  • Хотя корреляция обычно относится к коэффициенту корреляции Пирсона, существуют и другие типы корреляции, такие как коэффициент Спирмена.
Джером англим
источник
Привет, Джером, спасибо за объяснение, но у меня все еще есть вопрос: что, если мне не нужно делать прогнозы и просто хочу знать, насколько близки две переменные и в каком направлении / силе? Есть ли другое применение этих двух техник?
yue86231
3
@ yue86231 Тогда кажется, что мера корреляции будет более подходящей.
Джером Энглим
5
(+1) К сходствам может быть полезно добавить, что стандартные тесты гипотезы «корреляция = 0» или, что эквивалентно, «наклон = 0» (для регрессии в любом порядке), такие как выполняемые lmи cor.testв R, даст одинаковые значения р.
whuber
3
Я согласен, что предложение от @whuber должно быть добавлено, но на самом базовом уровне, я думаю, стоит указать, что знак наклона регрессии и коэффициент корреляции равны. Вероятно, это одна из первых вещей, которую большинство людей узнают о взаимосвязи между корреляцией и «линией наилучшего соответствия» (даже если они еще не называют это «регрессией»), но я думаю, что это стоит отметить. Кроме различий, тот факт, что вы получаете тот же корреляционный ответ X с Y или наоборот, но регрессия Y на X отличается от регрессии X на Y, также может заслуживать упоминания.
Серебряная
36

Вот ответ, который я разместил на сайте graphpad.com :

Корреляция и линейная регрессия не совпадают. Рассмотрим эти различия:

  • Корреляция количественно определяет степень, в которой связаны две переменные. Корреляция не вписывается в линию через данные.
  • С корреляцией вам не нужно думать о причине и следствии. Вы просто определяете, насколько хорошо две переменные связаны друг с другом. При регрессии вы должны думать о причине и следствии, поскольку линия регрессии определяется как лучший способ предсказать Y из X.
  • При корреляции не имеет значения, какую из двух переменных вы называете «X», а какую - «Y». Вы получите тот же коэффициент корреляции, если вы поменяете местами. При линейной регрессии решение о том, какую переменную вы называете «X», а какую «Y», имеет большое значение, так как вы получите другую линию наилучшего соответствия, если вы поменяете местами. Линия, которая лучше всего предсказывает Y из X, отличается от линии, которая предсказывает X из Y (если только у вас нет точных данных без разброса.)
  • Корреляция почти всегда используется при измерении обеих переменных. Это редко подходит, когда одна переменная является чем-то, что вы экспериментально манипулируете. При линейной регрессии переменная X обычно является чем-то, что вы экспериментально манипулируете (время, концентрация ...), а переменная Y - это то, что вы измеряете.
Харви Мотульский
источник
13
«лучший способ предсказать Y из X» не имеет ничего общего с причиной и следствием: X может быть причиной Y или наоборот. Можно рассуждать от причин к следствиям (вычет) или от следствий к причинам (похищение).
Нил Г
4
«Вы получите другую линию, наиболее подходящую для вас, если поменяете местами» - это немного вводит в заблуждение; стандартизированные уклоны будут одинаковыми в обоих случаях.
ксеноцион
26

В случае линейной регрессии с одним предиктором стандартизированный наклон имеет то же значение, что и коэффициент корреляции. Преимущество линейной регрессии заключается в том, что взаимосвязь может быть описана таким образом, что вы можете прогнозировать (на основе взаимосвязи между двумя переменными) оценку по прогнозируемой переменной с учетом любого конкретного значения переменной-предиктора. В частности, один фрагмент информации, который дает линейная регрессия, показывает, что корреляция не является перехватом, значением прогнозируемой переменной, когда предиктор равен 0.

Короче говоря - они дают идентичные результаты в вычислительном отношении, но есть больше элементов, которые могут интерпретироваться в простой линейной регрессии. Если вы хотите просто охарактеризовать величину взаимосвязи между двумя переменными, используйте корреляцию - если вы заинтересованы в прогнозировании или объяснении своих результатов в терминах конкретных значений, вы, вероятно, хотите регрессию.

russellpierce
источник
«В частности, одна часть информации, которую линейная регрессия дает вам, что корреляция не является перехватом» ... Очень большая разница!
SIslam
Что ж, оглядываясь назад, это правда, что регрессия обеспечивает перехват, потому что для многих пакетов статистики это по умолчанию. Можно легко вычислить регрессию без перехвата.
Russellpierce
Да, можно легко вычислить регрессию без перехвата, но это редко имело бы смысл: stats.stackexchange.com/questions/102709/…
kjetil b halvorsen
@kjetilbhalvorsen За исключением случая, который я описал, когда вы устанавливаете стандартизированный уклон. Член перехвата в стандартизированном уравнении регрессии всегда равен 0. Почему? Потому что как IV, так и DV были стандартизированы для единиц измерения - в результате перехват определенно равен 0. Именно тот случай, который вы описали в своем ответе. (эквивалентно стандартизации IV и DV). Когда и IV, и DV стандартизированы в 0, перехват определенно равен 0.
russellpierce
11

Корреляционный анализ только количественно определяет отношение между двумя переменными, игнорируя которые являются зависимой переменной и которая является независимой. Но перед применением регрессии вы должны проверить, какое влияние какой переменной вы хотите проверить на другую переменную.


источник
9

Все приведенные ответы до сих пор дают важную информацию, но не следует забывать, что вы можете преобразовать параметры одного в другой:

Регрессия:y=mx+b

Связь между параметрами регрессии и корреляцией, ковариацией, дисперсией, стандартным отклонением и средними значениями: b= ˉ y -m ˉ x

m=Cov(y,x)Var(x)=Cor(y,x)Sd(y)Sd(x)
b=y¯mx¯

Таким образом, вы можете преобразовать оба в друг друга, масштабируя и сдвигая их параметры.

Пример в R:

y <- c(4.17, 5.58, 5.18, 6.11, 4.50, 4.61, 5.17, 4.53, 5.33, 5.14)
x <- c(4.81, 4.17, 4.41, 3.59, 5.87, 3.83, 6.03, 4.89, 4.32, 4.69)
lm(y ~ x)
## 
## Call:
## lm(formula = y ~ x)
## 
## Coefficients:
## (Intercept)            x  
##      6.5992      -0.3362
(m <- cov(y, x) / var(x)) # slope of regression
## [1] -0.3362361
cor(y, x) * sd(y) / sd(x) # the same with correlation
## [1] -0.3362361
mean(y) - m*mean(x)       # intercept
## [1] 6.599196
vonjd
источник
3

Из корреляции мы можем получить только индекс, описывающий линейные отношения между двумя переменными; в регрессии мы можем предсказать связь между более чем двумя переменными и можем использовать ее, чтобы определить, какие переменные x могут предсказать исходную переменную y .

Радий
источник
3

Цитируя Altman DG, «Практическая статистика для медицинских исследований», Chapman & Hall, 1991, стр. 321: «Корреляция сводит набор данных к одному числу, которое не имеет прямого отношения к фактическим данным. Регрессия - гораздо более полезный метод, с результаты, которые явно связаны с полученным измерением. Сила отношения очевидна, и неопределенность может быть ясно видна из доверительных интервалов или интервалов прогнозирования ».

Карло Лаззаро
источник
3
Хотя я сочувствую Альтману - методы регрессии часто более подходят, чем корреляция, во многих случаях - эта цитата устанавливает аргумент соломенного человека. В регрессии OLS полученная информация эквивалентна той, которая предоставляется информацией, которая входит в расчет корреляции (все первый и второй двумерные моменты и их стандартные ошибки), а коэффициент корреляции обеспечивает ту же информацию, что и наклон регрессии. Два подхода несколько отличаются в базовых моделях данных, которые они принимают, и в их интерпретации, но не в способах, заявленных Альтманом.
whuber
1

Регрессионный анализ - это методика изучения причины влияния взаимосвязи между двумя переменными. в то время как корреляционный анализ является техникой для изучения количественно отношения между двумя переменными.

Канон Дас Зинку
источник
6
Добро пожаловать в резюме! Учитывая, что уже есть так много ответов на этот вопрос, вы хотите взглянуть на них и посмотреть, добавляет ли ваш что-нибудь новое? Если вы хотите сказать больше, вы можете отредактировать его, чтобы сделать это.
Scortchi - Восстановить Монику
0

Корреляция - это показатель (всего одно число) силы отношений. Регрессия - это анализ (оценка параметров модели и статистическая проверка их значимости) адекватности тех или иных функциональных отношений. Размер корреляции связан с тем, насколько точными будут прогнозы регрессии.

Jdub
источник
1
Нет, это не так. Корреляция дает нам ограниченные отношения, но это не относится к тому, насколько точными могут быть предсказания. R2 дает это.
SmallChess
-3

Корреляция - это термин в статистике, который определяет, существует ли связь между двумя, а затем степень взаимосвязи. Его диапазон от -1 до +1. В то время как регрессия означает возврат к средней. Исходя из регрессии, мы прогнозируем значение, оставляя одну переменную зависимой, а другую независимой, но следует уточнить значение переменной, которую мы хотим предсказать.

Шакир Сабир
источник
6
Здравствуйте, @shakir, и добро пожаловать в Cross Validated! Вы, наверное, заметили, что это старый вопрос (с 2010 года), и на него уже дано семь (!) Ответов. Было бы неплохо убедиться, что ваш новый ответ добавляет что-то важное к обсуждению, которое ранее не освещалось. На данный момент я не уверен, что это так.
говорит амеба, восстанови Монику