Имеет ли

18

Я, кажется, запутался, пытаясь понять, имеет ли значение квадрат также значение .rp

Насколько я понимаю, в линейной корреляции с набором точек данных может иметь значение в диапазоне от до и это значение, каким бы оно ни было, может иметь значение, которое показывает , значительно ли отличается от (т.е. , если существует линейная корреляция между двумя переменными).r11pr0

Переходя к линейной регрессии, функция может быть адаптирована к данным, описываемым уравнением . и (пересечение и наклон) также имеют чтобы показать, значительно ли они отличаются от .Y=a+bXabp0

Предполагая, что я до сих пор все правильно понял, являются ли значение для и значением для одинаковыми? Тогда правильно ли говорить, что не квадрат имеет значение, а скорее г или б, который имеет?prpbrprb

user1357
источник

Ответы:

14

В дополнение к многочисленным (правильным) комментариям других пользователей, указывающим, что значение для r 2 идентично p- значению для глобального F- теста, обратите внимание, что вы также можете получить p- значение, связанное с r 2 " непосредственно ", используя тот факт, что r 2 по нулевой гипотезе распространяется как бета-версия ( V нpr2pFpr2r2, гдеvnиvd- степени свободы числителя и знаменателя, соответственно, для соответствующейF-статистики.Beta(vn2,vd2)vnvdF

Третий пункт в подразделе « Производные от других дистрибутивов» статьи Википедии о бета-дистрибутиве говорит нам, что:

Если и Y χ 2 ( β ) независимы, то XXχ2(α)Yχ2(β).ИксИкс+Y~Бета(α2,β2)

Ну, мы можем написать в этом Xр2 форма.ИксИкс+Y

Пусть - общая сумма квадратов для переменной Y , S S E - сумма квадратов ошибок для регрессии Y по некоторым другим переменным, а S S R - «уменьшенная сумма квадратов», то есть S S R = S S Y - S S Е . Тогда r 2 = 1 - S S ESSYYSSEYSSRSSR=SSYSSE И, конечно же, являясь суммами квадратов,SSRиSSEоба распределяются какχ2сvnиvdстепенями свободы соответственно. Следовательно, r2Beta(vn

r2=1SSESSY=SSYSSESSY=SSRSSR+SSE
SSRSSEχ2vnvd (Конечно, я не показал, что два хи-квадрата независимы. Может быть, комментатор может что-то сказать об этом.)
r2Beta(vn2,vd2)

Демонстрация в R (заимствование кода из @gung):

set.seed(111)
x = runif(20)
y = 5 + rnorm(20)
cor.test(x,y)

# Pearson's product-moment correlation
# 
# data:  x and y
# t = 1.151, df = 18, p-value = 0.2648
# alternative hypothesis: true correlation is not equal to 0
# 95 percent confidence interval:
#  -0.2043606  0.6312210
# sample estimates:
#       cor 
# 0.2618393 

summary(lm(y~x))

# Call:
#   lm(formula = y ~ x)
# 
# Residuals:
#     Min      1Q  Median      3Q     Max 
# -1.6399 -0.6246  0.1968  0.5168  2.0355 
# 
# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)    
# (Intercept)   4.6077     0.4534  10.163 6.96e-09 ***
# x             1.1121     0.9662   1.151    0.265    
# ---
#   Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# 
# Residual standard error: 1.061 on 18 degrees of freedom
# Multiple R-squared:  0.06856,  Adjusted R-squared:  0.01681 
# F-statistic: 1.325 on 1 and 18 DF,  p-value: 0.2648

1 - pbeta(0.06856, 1/2, 18/2)

# [1] 0.2647731
Джейк Уэстфолл
источник
6

Я надеюсь, что этот четвертый (!) Ответ прояснит ситуацию дальше.

В простой линейной регрессии существует три эквивалентных теста:

  1. критерий Стьюдента для нулевого наклона населения ковариабельного X
  2. t-тест для нулевой корреляции населения между и ответом YXY
  3. F-тест для нулевой популяции R-квадрат, то есть ничего изменчивости можно объяснить различными X .YX

Все три теста проверяют линейную связь между и Y и, к счастью (!), Все они приводят к одному и тому же результату. Их тестовая статистика эквивалентна. (Тесты 1 и 2 основаны на распределении Стьюдента с n - 2 df, что соответствует F-распределению выборки теста 3, только с квадратом статистики теста).XYn2

Быстрый пример в R:

# Input
set.seed(3)

n <- 100
X <- runif(n)
Y <- rnorm(n) + X

cor.test(~ X + Y) # For test 2 (correlation)

# Output (part)
# t = 3.1472, df = 98, p-value = 0.002184
# alternative hypothesis: true correlation is not equal to 0

# Input (for the other two tests)
fit <- lm(Y ~ X)
summary(fit)      

# Output (partial)
Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept) -0.03173    0.18214  -0.174  0.86204   
X            1.02051    0.32426   3.147  0.00218 **
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.9239 on 98 degrees of freedom
Multiple R-squared:  0.09179,   Adjusted R-squared:  0.08253 
F-statistic: 9.905 on 1 and 98 DF,  p-value: 0.002184

Как вы можете видеть, три теста дают одинаковое значение p 0,00218. Обратите внимание, что тест 3 является последним в последней строке вывода.

Таким образом, ваш F-тест для R-квадрата является очень частым, хотя немногие статистики интерпретируют его как тест для R-квадрата.

Майкл М
источник
5

Вы, кажется, имеете приличное понимание для меня. Мы можем получить значение для r 2 , но, поскольку это (нестохастическая) функция от r , p s будет одинаковой. pr2rp

Gung - Восстановить Монику
источник
Я так не думаю. Соединяя вывод о и r 2 с выводом о α и β из OLS, ρ имеет значение, если β отлично от нуля, независимо от α . Тем не менее, r 2 является значимым, если α или β отличны от нуля. Это помогает визуализировать то, что оценивают соответствующие тесты. ρr2αβρβαr2αβ
AdamO
1
@AdamO, я не могу понять аргумент в вашем комментарии. Подобный пост Майкла Майера ниже, в R попробовать: set.seed(111); x = runif(20); y = 5 + rnorm(20); cor.test(x,y); summary(lm(y~x)). Р для г есть .265. P для b & для глобального F-теста идентичны, хотя p для a есть 6.96e-09.
gung - Восстановить Монику
Именно моя точка зрения. отличается от r 2, и их p- значение НЕ идентично. r 2 может быть функцией r , но это даже не монотонная функция. r 2 может быть значительным, когда r нет. Что измеряет r 2 ? Это остаточная стандартная ошибка после построения трендовой линии OLS и расчета невязок. В вашем примере, будет ли остаточная дисперсия меньше безусловной Y- дисперсии? Абсолютно. р 2rr2pr2rr2rr2Yr2значит, значит. Вы можете рассчитать рабочие характеристики с помощью начальной загрузки, и связь между ANOVA и обычными наименьшими квадратами также проливает свет на этот вопрос.
AdamO
4
Вы также можете получить значение, связанное с r 2, «напрямую», используя тот факт, что r 2 по нулевой гипотезе распределяется как B e t a ( v npr2r2, гдеvnиvd- степени свободы числителя и знаменателя, соответственно, для соответствующейF-статистики. (См. 3-е удостоверение здесь:en.wikipedia.org/wiki/….) Итак, используя пример данных @ gung, еслимы введем,мы получим. Beta(vn2,vd2)vnvdFR1 - pbeta(0.06856, 1/2, 18/2)0.2647731
Джейк Уэстфолл,
4
@AdamO, я все еще не понимаю. Они оба .265, как они не идентичны?
gung - Восстановить Монику
4

Существует несколько способов получения тестовой статистики для тестов корреляции Пирсона, . Чтобы получить p- значение, стоит подчеркнуть, что вам нужен как тест, так и выборочное распределение тестовой статистики при нулевой гипотезе. Ваш заголовок и вопрос, кажется, имеют некоторую путаницу между корреляцией Пирсона и «объяснением дисперсии» r 2 . Сначала я рассмотрю коэффициент корреляции.ρpr2

Нет лучшего способа проверить корреляцию Пирсона, о которой я знаю. Z-преобразование Фишера - один из таких способов, основанный на гиперболических преобразованиях, так что вывод немного более эффективен. Это, безусловно, «хороший» подход, но грустный момент заключается в том, что вывод для этого параметра согласуется с выводом о параметре наклона для ассоциации: они рассказывают одну и ту же историю в долгосрочной перспективе.β

Причина, по которой статистики имеют (классически) полностью предпочтительные тесты на заключается в том, что у нас есть «лучший» тест: линейная регрессия, которая является СИНИМ оценщиком. Во времена современной статистики нас больше не волнует, является ли тест «лучшим», но линейная регрессия обладает множеством других фантастических свойств, которые оправдывают ее дальнейшее использование для определения связи между двумя переменными. В целом, ваша интуиция права: по сути, это одно и то же, и мы сосредотачиваем наше внимание на β как на более практичной мере ассоциации.ββ

Значение является функцией как уклона, так и точки пересечения. Если любое из этих значений отлично от нуля, r 2 должно иметь заметное распределение выборки относительно того, которое можно было бы ожидать, если бы линейные параметры были равны нулю. Однако, получение распределений r 2 при нулевом значении и сравнение с r 2r2r2r2r2Согласно какой-то альтернативной гипотезе, я не уверен, что этот тест обладает достаточной силой для определения того, чего мы хотим. Просто внутреннее чувство. Снова обращаясь к «лучшим» оценщикам, OLS дает нам «наилучшие» оценки как наклона, так и точки пересечения, поэтому у нас есть уверенность, что наш тест, по крайней мере, хорош для определения такой же (если таковая имеется) ассоциации путем непосредственного тестирования параметров модели , Для меня совместное тестирование и β с OLS превосходит любое тестирование по r 2, за исключением редкого случая (возможно) не вложенного приложения калибровки с прогнозирующим моделированием ... но BIC, вероятно, будет лучшей мерой в этом сценарии. тем не мение.αβr2

Adamo
источник
1
« является функцией как уклона, так и точки пересечения». Может быть, я что-то упускаю, но ... разве это не функция склона? Может быть, вы могли бы предоставить конкретную демонстрацию? r2
Джейк Уэстфолл,
Конечно. Напомним, что если наблюдаемые данные полностью соответствуют линии тренда, то точно. Рассмотрим данные с «плоским откликом» без изменчивости, но с ненулевым перехватом, поэтому все кортежи принимают вид ( x i , β 0 ) для всех i { 1 , 2 , n } . r 2 = 1, как указано на. Коэффициент детерминации служит разумной сводкой прогнозирующей способности для линейного уравнения, и для получения этих прогнозов требуется как наклон, так и перехват. r2=1(xi,β0)i{1,2,n}r2=1
AdamO
1

Это не совсем то, как я бы интерпретировал вещи. Я не думаю, что когда-либо вычислю значение для r или r 2 . r и r 2 являются качественными показателями модели, а не показателями, которые мы сравниваем с распределением, поэтому значение p в действительности не имеет смысла.прр2рр2п

пбб0рр2р2

пa000

пр2

Дункан
источник
4
FR2FR2nF=(n2)R2/(1R2)bR2
На практике кажется, что люди не думают с точки зрения значения г или г ^ 2. Что может быть более полезным, так это доверительный интервал вокруг них.
N Brouwer