В дополнение к многочисленным (правильным) комментариям других пользователей, указывающим, что значение для r 2 идентично p- значению для глобального F- теста, обратите внимание, что вы также можете получить p- значение, связанное с r 2 " непосредственно ", используя тот факт, что r 2 по нулевой гипотезе распространяется как бета-версия ( V нpr2pFpr2r2, гдеvnиvd- степени свободы числителя и знаменателя, соответственно, для соответствующейF-статистики.Beta(vn2,vd2)vnvdF
Третий пункт в подразделе « Производные от других дистрибутивов» статьи Википедии о бета-дистрибутиве говорит нам, что:
Если и Y ∼ χ 2 ( β ) независимы, то XX∼χ2(α)Y∼χ2(β).ИксИкс+ Y∼ бета ( α2, β2)
Ну, мы можем написать в этом Xр2 форма.ИксИкс+ Y
Пусть - общая сумма квадратов для переменной Y , S S E - сумма квадратов ошибок для регрессии Y по некоторым другим переменным, а S S R - «уменьшенная сумма квадратов», то есть S S R = S S Y - S S Е . Тогда
r 2 = 1 - S S ESSYYSSEYSSRSSR=SSY−SSE
И, конечно же, являясь суммами квадратов,SSRиSSEоба распределяются какχ2сvnиvdстепенями свободы соответственно. Следовательно,
r2∼Beta(vn
r2=1−SSESSY=SSY−SSESSY=SSRSSR+SSE
SSRSSEχ2vnvd
(Конечно, я не показал, что два хи-квадрата независимы. Может быть, комментатор может что-то сказать об этом.)
r2∼Beta(vn2,vd2)
Демонстрация в R (заимствование кода из @gung):
set.seed(111)
x = runif(20)
y = 5 + rnorm(20)
cor.test(x,y)
# Pearson's product-moment correlation
#
# data: x and y
# t = 1.151, df = 18, p-value = 0.2648
# alternative hypothesis: true correlation is not equal to 0
# 95 percent confidence interval:
# -0.2043606 0.6312210
# sample estimates:
# cor
# 0.2618393
summary(lm(y~x))
# Call:
# lm(formula = y ~ x)
#
# Residuals:
# Min 1Q Median 3Q Max
# -1.6399 -0.6246 0.1968 0.5168 2.0355
#
# Coefficients:
# Estimate Std. Error t value Pr(>|t|)
# (Intercept) 4.6077 0.4534 10.163 6.96e-09 ***
# x 1.1121 0.9662 1.151 0.265
# ---
# Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#
# Residual standard error: 1.061 on 18 degrees of freedom
# Multiple R-squared: 0.06856, Adjusted R-squared: 0.01681
# F-statistic: 1.325 on 1 and 18 DF, p-value: 0.2648
1 - pbeta(0.06856, 1/2, 18/2)
# [1] 0.2647731
set.seed(111); x = runif(20); y = 5 + rnorm(20); cor.test(x,y); summary(lm(y~x))
. Р для г есть.265
. P для b & для глобального F-теста идентичны, хотя p для a есть6.96e-09
.R
1 - pbeta(0.06856, 1/2, 18/2)
0.2647731
.265
, как они не идентичны?Существует несколько способов получения тестовой статистики для тестов корреляции Пирсона, . Чтобы получить p- значение, стоит подчеркнуть, что вам нужен как тест, так и выборочное распределение тестовой статистики при нулевой гипотезе. Ваш заголовок и вопрос, кажется, имеют некоторую путаницу между корреляцией Пирсона и «объяснением дисперсии» r 2 . Сначала я рассмотрю коэффициент корреляции.ρ p r2
Нет лучшего способа проверить корреляцию Пирсона, о которой я знаю. Z-преобразование Фишера - один из таких способов, основанный на гиперболических преобразованиях, так что вывод немного более эффективен. Это, безусловно, «хороший» подход, но грустный момент заключается в том, что вывод для этого параметра согласуется с выводом о параметре наклона для ассоциации: они рассказывают одну и ту же историю в долгосрочной перспективе.β
Причина, по которой статистики имеют (классически) полностью предпочтительные тесты на заключается в том, что у нас есть «лучший» тест: линейная регрессия, которая является СИНИМ оценщиком. Во времена современной статистики нас больше не волнует, является ли тест «лучшим», но линейная регрессия обладает множеством других фантастических свойств, которые оправдывают ее дальнейшее использование для определения связи между двумя переменными. В целом, ваша интуиция права: по сути, это одно и то же, и мы сосредотачиваем наше внимание на β как на более практичной мере ассоциации.β β
Значение является функцией как уклона, так и точки пересечения. Если любое из этих значений отлично от нуля, r 2 должно иметь заметное распределение выборки относительно того, которое можно было бы ожидать, если бы линейные параметры были равны нулю. Однако, получение распределений r 2 при нулевом значении и сравнение с r 2r2 r2 r2 r2 Согласно какой-то альтернативной гипотезе, я не уверен, что этот тест обладает достаточной силой для определения того, чего мы хотим. Просто внутреннее чувство. Снова обращаясь к «лучшим» оценщикам, OLS дает нам «наилучшие» оценки как наклона, так и точки пересечения, поэтому у нас есть уверенность, что наш тест, по крайней мере, хорош для определения такой же (если таковая имеется) ассоциации путем непосредственного тестирования параметров модели , Для меня совместное тестирование и β с OLS превосходит любое тестирование по r 2, за исключением редкого случая (возможно) не вложенного приложения калибровки с прогнозирующим моделированием ... но BIC, вероятно, будет лучшей мерой в этом сценарии. тем не мение.α β r2
источник
Это не совсем то, как я бы интерпретировал вещи. Я не думаю, что когда-либо вычислю значение для r или r 2 . r и r 2 являются качественными показателями модели, а не показателями, которые мы сравниваем с распределением, поэтому значение p в действительности не имеет смысла.п р р2 р р2 п
источник