Коэффициент корреляции обычно пишется с большой буквы но иногда нет. Интересно, есть ли разница между и ? Может ли означать что-то еще, кроме коэффициента корреляции?
22
Коэффициент корреляции обычно пишется с большой буквы но иногда нет. Интересно, есть ли разница между и ? Может ли означать что-то еще, кроме коэффициента корреляции?
Ответы:
Обозначения по этому вопросу, кажется, немного различаются.
Символ - это «коэффициент корреляции выборки», используемый в двумерном случае - т.е. есть две переменные, X и Y - и он обычно означает корреляцию между X и Y в вашей выборке. Вы можете рассматривать это как оценку корреляции ρ между двумя переменными в более широком населении. Чтобы соотнести две переменные, нет необходимости определять, какая из них является предиктором, а какая - ответом. Действительно, если бы вы нашли корреляцию между Y и X, она была бы такой же, как корреляция между X и Y , потому что корреляция симметричнаr X Y X Y ρ Y X X Y , Обратите внимание, что когда символ r используется таким образом, с r < 0 (отрицательная корреляция), если две переменные имеют линейно убывающую связь (когда одна возрастает, другая стремится убывать).−1≤r≤1 r r<0
Нотация становится непоследовательной, когда есть две переменные, и Y , и выполняется простая линейная регрессия . Это означает , идентифицирующие одну переменную, Y , в качестве переменной отклика, а другой, X , в качестве переменной предсказателя и подгонки модели Y = β 0 + β 1 X . Некоторые люди также используют символ г , чтобы указать корреляцию между Y и Y в то время как другие (для совместимости с множественной регрессии) записи RX Y Y X Y^=β^0+β^1X r Y Y^ R , Обратите внимание, что корреляция между наблюдаемыми и подобранными ответами обязательно больше или равна нулю. Это одна из причин мне не нравится использование символ в этом случае: корреляция между X и Y может быть отрицательной, в то время как корреляция между Y и Y является положительной (на самом деле это будет просто модуль корреляция между X и Y ), но оба могут быть записаны с символом r . Я видел некоторые учебники и статьи из Википедии, которые почти взаимозаменяемо переключаются между двумя значениями r и находят это излишне запутывающим. Я предпочитаю использовать символ Rr X Y Y Y^ X Y r r R корреляции между и Y в одиночной и множественной регрессии.Y Y^
В простой и множественной regresion, то до тех пор , пока существует общий термин перехвата установлена в модели, между Y и Y представляет собой просто квадратный корень из коэффициента детерминации R 2R Y Y^ R2 (часто называемый «процент дисперсии объяснил» или аналогичный). В частности, в случае простой линейной регрессии, тогда R2=r2 где я пишу для корреляции между X и Y , а R 2 может представлять либо коэффициент определения регрессии, либо квадрат корреляции междуr X Y R2 и Y . Поскольку - 1 ≤ r ≤ 1 и 0 ≤ R ≤ 1 , это означает, что R = | г | , Так, например, если вы получите корреляцию между X и Y из г = - 0,7 , то связь между Y и подогнанной Y от простой линейной регрессии Y = & beta ; 0 + β 1 XY Y^ −1≤r≤1 0≤R≤1 R=|r| X Y r=−0.7 Y Y^ Y=β^0+β^1X будет а коэффициент детерминации будет R 2 = 0,49, т. е. почти половина вариации в ответе будет объясняться вашей моделью.R=0.7 R2=0.49
Если член перехвата не был включен в модель, то символ является неоднозначным. Обычно он рассматривается как коэффициент детерминации, но, как правило, он рассчитывается не так, как обычно , поэтому будьте осторожны при чтении результатов из вашего статистического программного обеспечения. Тогда он больше не будет квадратом кратной корреляции R , и в двумерном случае он не будет равен r 2 !R2 R r2
источник