Есть ли разница между

22

Коэффициент корреляции обычно пишется с большой буквы но иногда нет. Интересно, есть ли разница между и ? Может ли означать что-то еще, кроме коэффициента корреляции?Rr2R2r

DJack
источник
8
Я удивлен, что этот вопрос был опущен - он ясен и четко определен и охватывает проблему, когда терминология используется непоследовательным образом. Хуже, потому что он чувствителен к регистру, это сложная тема для поиска разъяснений! Помимо того , что r может быть использован для двух совершенно разных вещей, ситуация становится еще хуже , когда мы рассматриваем модель без точки перехвата, когда R2 , коэффициент детерминации, даже не то же самое , как квадрат R . Неудивительно, что люди могут найти нотацию запутанной.
Серебряная рыба

Ответы:

18

Обозначения по этому вопросу, кажется, немного различаются.

R используется в контексте множественной корреляции и называется «коэффициентом множественной корреляции». Это корреляция между наблюдаемыми ответамиY и Y , установленнымипомощью модели. Y обычно предсказывается из нескольких предикторов X я , например , Y = β 0 + β 1 X 1 + β 2 X 2 , где перехватывают и наклон коэффициенты р я был оценен из данных. Обратите внимание, что 0Y^Y^XiY^=β^0+β^1X1+β^2X2β^i .0R1

Символ - это «коэффициент корреляции выборки», используемый в двумерном случае - т.е. есть две переменные, X и Y - и он обычно означает корреляцию между X и Y в вашей выборке. Вы можете рассматривать это как оценку корреляции ρ между двумя переменными в более широком населении. Чтобы соотнести две переменные, нет необходимости определять, какая из них является предиктором, а какая - ответом. Действительно, если бы вы нашли корреляцию между Y и X, она была бы такой же, как корреляция между X и Y , потому что корреляция симметричнаrXYXYρYXXY, Обратите внимание, что когда символ r используется таким образом, с r < 0 (отрицательная корреляция), если две переменные имеют линейно убывающую связь (когда одна возрастает, другая стремится убывать).1r1rr<0

Нотация становится непоследовательной, когда есть две переменные, и Y , и выполняется простая линейная регрессия . Это означает , идентифицирующие одну переменную, Y , в качестве переменной отклика, а другой, X , в качестве переменной предсказателя и подгонки модели Y = β 0 + β 1 X . Некоторые люди также используют символ г , чтобы указать корреляцию между Y и Y в то время как другие (для совместимости с множественной регрессии) записи RXYYXY^=β^0+β^1XrYY^R, Обратите внимание, что корреляция между наблюдаемыми и подобранными ответами обязательно больше или равна нулю. Это одна из причин мне не нравится использование символ в этом случае: корреляция между X и Y может быть отрицательной, в то время как корреляция между Y и Y является положительной (на самом деле это будет просто модуль корреляция между X и Y ), но оба могут быть записаны с символом r . Я видел некоторые учебники и статьи из Википедии, которые почти взаимозаменяемо переключаются между двумя значениями r и находят это излишне запутывающим. Я предпочитаю использовать символ RrXYYY^XYrrRкорреляции между и Y в одиночной и множественной регрессии.YY^

В простой и множественной regresion, то до тех пор , пока существует общий термин перехвата установлена в модели, между Y и Y представляет собой просто квадратный корень из коэффициента детерминации R 2RYY^R2 (часто называемый «процент дисперсии объяснил» или аналогичный). В частности, в случае простой линейной регрессии, тогда R2=r2 где я пишу для корреляции между X и Y , а R 2 может представлять либо коэффициент определения регрессии, либо квадрат корреляции междуrXYR2 и Y . Поскольку - 1 r 1 и 0 R 1 , это означает, что R = | г | , Так, например, если вы получите корреляцию между X и Y из г = - 0,7 , то связь между Y и подогнанной Y от простой линейной регрессии Y = & beta ; 0 + β 1 XYY^1r10R1R=|r|XYr=0.7YY^Y=β^0+β^1Xбудет а коэффициент детерминации будет R 2 = 0,49, т. е. почти половина вариации в ответе будет объясняться вашей моделью.R=0.7R2=0.49

Если член перехвата не был включен в модель, то символ является неоднозначным. Обычно он рассматривается как коэффициент детерминации, но, как правило, он рассчитывается не так, как обычно , поэтому будьте осторожны при чтении результатов из вашего статистического программного обеспечения. Тогда он больше не будет квадратом кратной корреляции R , и в двумерном случае он не будет равен r 2 !R2Rr2

тарпон
источник