Мой вопрос возник из обсуждения с @whuber в комментариях к другому вопросу .
В частности, комментарий @whuber был следующим:
Одна из причин, по которой вас это может удивить, заключается в том, что допущения, лежащие в основе теста корреляции и теста наклона регрессии, различны - поэтому даже когда мы понимаем, что корреляция и наклон действительно измеряют одно и то же, почему их значения p должны быть одинаковыми? Это показывает, как эти проблемы глубже, чем просто то, должны ли и быть численно равными.β
Это заставило меня задуматься, и я наткнулся на множество интересных ответов. Например, я нашел этот вопрос « Допущения коэффициента корреляции », но не вижу, как это пояснит комментарий выше.
Я нашел более интересные ответы о взаимосвязи Пирсона и наклона в простой линейной регрессии (см. Здесь и здесь, например), но ни один из них, похоже, не отвечает на то, на что ссылался @whuber в своем комментарии (по крайней мере, не очевидно мне).β
Вопрос 1: Какие предположения лежат в основе теста корреляции и теста на наклон регрессии?
Для моего второго вопроса рассмотрим следующие выводы R
:
model <- lm(Employed ~ Population, data = longley)
summary(model)
Call:
lm(formula = Employed ~ Population, data = longley)
Residuals:
Min 1Q Median 3Q Max
-1.4362 -0.9740 0.2021 0.5531 1.9048
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 8.3807 4.4224 1.895 0.0789 .
Population 0.4849 0.0376 12.896 3.69e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.013 on 14 degrees of freedom
Multiple R-squared: 0.9224, Adjusted R-squared: 0.9168
F-statistic: 166.3 on 1 and 14 DF, p-value: 3.693e-09
И вывод cor.test()
функции:
with(longley, cor.test(Population, Employed))
Pearson's product-moment correlation
data: Population and Employed
t = 12.8956, df = 14, p-value = 3.693e-09
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.8869236 0.9864676
sample estimates:
cor
0.9603906
Как видно из результатов lm()
и cov.test()
, коэффициент корреляции Пирсона и оценка наклона ( ) в значительной степени различаются: 0,96 против 0,485 соответственно, но значения t и p одинаковы.β 1
Затем я также попытался выяснить, могу ли я рассчитать значение t для и β 1 , которые одинаковы, несмотря на то, что r и β 1 различны. И вот где я застреваю, по крайней мере, для r :
Рассчитайте наклон ( ) в простой линейной регрессии, используя общие суммы квадратов x и y :
x <- longley$Population; y <- longley$Employed
xbar <- mean(x); ybar <- mean(y)
ss.x <- sum((x-xbar)^2)
ss.y <- sum((y-ybar)^2)
ss.xy <- sum((x-xbar)*(y-ybar))
Вычислите оценку наименьших квадратов наклона регрессии, (тому есть подтверждение в 1-й редакции книги Кроули , стр. 393):
b1 <- ss.xy/ss.x
b1
# [1] 0.4848781
Рассчитаем стандартную ошибку для :
ss.residual <- sum((y-model$fitted)^2)
n <- length(x) # SAMPLE SIZE
k <- length(model$coef) # NUMBER OF MODEL PARAMETER (i.e. b0 and b1)
df.residual <- n-k
ms.residual <- ss.residual/df.residual # RESIDUAL MEAN SQUARE
se.b1 <- sqrt(ms.residual/ss.x)
se.b1
# [1] 0.03760029
И t-значение, и p-значение для :
t.b1 <- b1/se.b1
p.b1 <- 2*pt(-abs(t.b1), df=n-2)
t.b1
# [1] 12.89559
p.b1
# [1] 3.693245e-09
На данный момент я не знаю, а это вопрос 2 : как рассчитать одно и то же t-значение, используя вместо β 1 (возможно, по шагам ребенка)?
Я предполагаю, что поскольку cor.test()
альтернативная гипотеза заключается в том, что истинная корреляция не равна 0 (см. cor.test()
Вывод выше), я ожидал бы что-то вроде коэффициента корреляции Пирсона деленного на «стандартную ошибку коэффициента корреляции Пирсона» (аналогично над)?! Но что это за стандартная ошибка и почему?b1/se.b1
Может быть, это как-то связано с вышеупомянутыми предположениями, лежащими в основе теста корреляции и теста на наклон регрессии ?
РЕДАКТИРОВАТЬ (27-Jul-2017): Хотя @whuber предоставил очень подробное объяснение Вопроса 1 (и частично Вопрос 2 , см. Комментарии под его ответом), я немного покопался и обнаружил, что эти два поста ( здесь и здесь ) делают показать конкретную стандартную ошибку для , которая хорошо подходит для ответа на вопрос 2 , то есть для воспроизведения t-значения с учетом r :
r <- 0.9603906
# n <- 16
r.se <- sqrt((1-r^2)/(n-2))
r/r.se
# [1] 12.8956
Ответы:
Введение
Этот ответ обращается к основной мотивации для этого набора вопросов:
В свете представленной в этом вопросе истории я хотел бы предложить немного расширить этот вопрос: давайте рассмотрим различные цели и концепции корреляции и регрессии.
Корреляция обычно вызывается в ситуациях, когда
Данные являются двумерными: с каждым «субъектом» или «наблюдением» связаны ровно два различных представляющих интерес значения.
Данные являются наблюдательными: ни одно из значений не было установлено экспериментатором. Оба наблюдались или измерялись.
Интерес заключается в выявлении, количественной оценке и тестировании некоторой взаимосвязи между переменными.
Регрессия используется где
Данные являются двумерными или многомерными: может быть более двух различных значений, представляющих интерес.
Интерес сосредоточен на понимании того, что можно сказать о подмножестве переменных - «зависимых» переменных или «откликах» - на основе того, что может быть известно о другом подмножестве - «независимых» переменных или «регрессорах».
Конкретные значения регрессоров могли быть установлены экспериментатором.
Эти различные цели и ситуации приводят к различным подходам. Поскольку этот поток обеспокоен их сходством, давайте сосредоточимся на случае, когда они наиболее похожи: двумерные данные. В любом случае эти данные обычно моделируются как реализации случайной величины . В общем, обе формы анализа ищут относительно простые характеристики этой переменной.(X,Y)
корреляция
Я считаю, что «корреляционный анализ» никогда не был в целом определен. Должно ли оно ограничиваться вычислением коэффициентов корреляции или его можно рассматривать более широко как включающее PCA, кластерный анализ и другие формы анализа, которые связывают две переменные? Независимо от того, является ли ваша точка зрения узкой или ограниченной, возможно, вы согласитесь с тем, что применимо следующее описание:
Например, вы могли бы начать с предположения, что имеет двумерное нормальное распределение и использовать коэффициент корреляции Пирсона данных для оценки одного из параметров этого распределения. Это одна из самых узких (и самых старых) концепций корреляции.( X, Y)
В качестве другого примера вы можете предположить, что может иметь любое распределение и использовать кластерный анализ для определения k «центров». Можно было бы истолковать это как начало разрешения распределения ( X , Y ) в смесь унимодальных двумерных распределений, по одному для каждого кластера.( X, Y) К ( X, Y)
Общим для всех этих подходов является симметричный подход к и Y : ни один из них не имеет преимуществ перед другим. Оба играют эквивалентные роли.Икс Y
регрессия
Регрессия имеет четкое, общепризнанное определение:
Исторически сложилось, что регрессия уходит своими корнями к открытию Гальтона (с 1885) . Что двумерные нормальные данные пользуются линейной регрессии: условное математическое ожидание Y является линейной функцией X . На одном полюсе специальной-общем спектре обычный метод наименьших квадратов (МНК) регрессии , где условное распределение Y предполагается Нормальный ( β 0 + & beta ; 1 X , сг 2 ) для фиксированных параметров β 0 , β 1 , и σ( X, Y) Y Икс Y ( β0+β1X, σ2) β0, β1, σ оценивать по данным.
На самом общем конце этого спектра находятся обобщенные линейные модели, обобщенные аддитивные модели и другие подобные им, которые ослабляют все аспекты МНК: ожидание, дисперсия и даже форма условного распределения могут изменяться нелинейно. с х . Концепция , которая выживает все это обобщение является то , что интерес остается сосредоточены на понимании того, как Y зависит от X . Эта фундаментальная асимметрия все еще там.Y Икс Y Икс
Корреляция и регрессия
Одна очень особенная ситуация является общей для обоих подходов и часто встречается: двумерная нормальная модель. В этой модели диаграмма рассеяния данных примет классическую форму «футбол», овал или сигару: данные распределены эллиптически вокруг ортогональной пары осей.
Корреляционный анализ фокусируется на «силе» этих отношений в том смысле, что относительно небольшой разброс вокруг большой оси является «сильным».
Как отмечалось выше, регрессия на X (и, в равной степени, регрессия X на Y ) является линейной : условное ожидание ответа является линейной функцией регрессора.Y Икс Икс Y
(Стоит задуматься о четких геометрических различиях между этими двумя описаниями: они освещают основные статистические различия.)
Из пяти двумерных нормальных параметров (два средних, два спреда и еще один, который измеряет зависимость между двумя переменными), один представляет общий интерес: пятый параметр, . Это напрямую (и просто) связано сρ
Коэффициент в регрессии Y на X .Икс Y Икс
Коэффициент в регрессии X на Y .Y Икс Y
Условные дисперсии в любой из регрессий и ( 2 ) .( 1 ) ( 2 )
Это общее приложение, которое является первым, которое каждый изучает, может затруднить понимание того, насколько различны корреляция и регрессия в их концепциях и целях. Только когда мы узнаем об их обобщениях, обнаруживаются основные различия. Было бы трудно интерпретировать GAM как дающий много информации о «корреляции», так же как было бы трудно представить кластерный анализ как форму «регрессии». Это разные семейства процедур с разными целями, каждая из которых полезна сама по себе, когда применяется соответствующим образом.
источник
Как следует из ответа @ whuber, существует ряд моделей и методов, которые могут попасть в зону корреляции, которые не имеют четких аналогов в мире регрессии и наоборот. Однако в целом, когда люди думают, сравнивают и сопоставляют регрессию и корреляцию, они на самом деле рассматривают две стороны одной и той же математической монеты (обычно линейная регрессия и корреляция Пирсона). Должны ли они принимать более широкое видение обоих семейств анализов - это отдельная дискуссия, с которой исследователи должны бороться, по крайней мере, минимально.
В этом узком представлении как о регрессии, так и о корреляции последующие объяснения должны помочь выяснить, как и почему их оценки, стандартные ошибки и значения p по существу являются вариантами друг друга.
С dataframe ,
dat
являющимсяlongley
набор данных , на который ссылается выше , мы получаем следующий за cor.test. (Здесь нет ничего нового, если вы не пропустили вопрос выше и не приступили непосредственно к чтению ответов):И следующее для линейной модели (также как и выше):
Теперь для нового компонента к этому ответу. Во- первых, создать два новых стандартных версий
Employed
иPopulation
переменных:Вторая повторная регрессия:
Вуаля! Наклон регрессии равен коэффициенту корреляции сверху. Ответ на вопрос 1 заключается в том, что предположения для обоих тестов по существу одинаковы:
Для вопроса 2 давайте начнем со стандартной ошибки в формуле наклона регрессии, использованной выше (подразумевается в коде R, но прямо указано ниже):
Поэтому, если мы хотим узнать стандартную ошибку нам нужно вычислить ее дисперсию (или V a r ( b ) ). Чтобы упростить запись, мы можем сказать, что X iб Вa r ( b ) Икся= ( Xя- Х¯) Yя= ( Yя- Y¯)
Из этой формулы вы можете получить следующее сокращенное и более полезное выражение ( пошаговая ссылка приведена в этой ссылке ):
Я думаю, вы найдете, что если вы решите это уравнение для нестандартизированных и стандартизированных (т.е. корреляционных) линейных моделей, вы получите те же значения p и t для ваших уклонов. Оба теста основаны на обычной оценке методом наименьших квадратов и основаны на одних и тех же предположениях. На практике многие исследователи пропускают проверку предположений как для простых моделей линейной регрессии, так и для корреляций, хотя я думаю, что это еще более распространено для корреляций, поскольку многие люди не распознают их как частные случаи простых линейных регрессий. (Примечание: это не очень хорошая практика для принятия)
источник
r <- 0.9603906; n <- 16; r/(sqrt((1-r^2)/(n-2))) # 12.8956
Вот объяснение эквивалентности теста, также показывающее, как r и b связаны между собой.
http://www.real-statistics.com/regression/hypothesis-testing-significance-regression-line-slope/
Чтобы выполнить OLS, вы должны сделать https://en.wikipedia.org/wiki/Ordinary_least_squares#Assumptions
Кроме того, OLS и corr требуют предположения о случайной выборке.
Построение теста corr предполагает:
У нас есть «случайная и достаточно большая выборка» из совокупности (x, y).
источник
По вопросу 2
С ограничением, что
Источник: Проверка гипотез в модели множественной регрессии.
источник