Интерпретация простой линейной регрессии

20

Я провел простую линейную регрессию натурального логарифма двух переменных, чтобы определить, коррелируют ли они. Мой вывод такой:

R^2 = 0.0893

slope = 0.851

p < 0.001

Я запутался. Глядя на значение , я бы сказал, что две переменные не коррелированы, так как оно очень близко к . Однако наклон линии регрессии почти равен (несмотря на то, что на графике он выглядит почти горизонтальным), а значение p указывает на то, что регрессия очень значительна. 0 1R201

Означает ли это , что две переменные имеют высокую корреляцию? Если это так, что означает значение ?R2

Я должен добавить, что статистика Дурбина-Ватсона была протестирована в моем программном обеспечении и не отвергала нулевую гипотезу (она равнялась ). Я думал, что это проверено на независимость между переменными. В этом случае я бы ожидал, что переменные будут зависимыми, так как они являются измерениями отдельной птицы. Я делаю эту регрессию как часть опубликованного метода для определения состояния тела человека, поэтому я предположил, что использование регрессии таким образом имело смысл. Однако, учитывая эти результаты, я думаю, что, возможно, для этих птиц этот метод не подходит. Кажется ли это разумным выводом?2 21.35722

киска
источник
1
Статистики Дарбина-Уотсона является испытанием для серийной корреляции: то есть, чтобы увидеть ли соседние члены ошибки взаимно связаны между собой . Это ничего не говорит о корреляции между вашим X и вашим Y! Если тест не пройден, это свидетельствует о том, что наклон и значение p следует интерпретировать с осторожностью.
whuber
Ах хорошо. Это имеет немного больше смысла, чем корреляция между двумя переменными ... в конце концов, я подумал, что это то, что я пытался найти с помощью регрессии. И этот провал теста указывает на то, что я должен быть осторожен при интерпретации наклона, и значение p в этом случае имеет еще больший смысл! Спасибо @whuber!
Мог
1
Я просто хотел бы добавить, что наклон может быть очень значительным (р-значение <.001), даже если отношения слабые, особенно при большом размере выборки. На это намекали в большинстве ответов, так как наклон (даже если он значительный) ничего не говорит о силе отношений.
Глен
Вам нужно чтобы определить силу отношений. Также см. Stats.stackexchange.com/a/265924/99274 . n
Карл

Ответы:

22

Расчетное значение уклона само по себе не говорит о силе отношений. Степень взаимосвязи зависит от размера ошибки и диапазона предиктора. Кроме того, значимое значение не обязательно говорит о наличии сильных отношений; -значение просто тестирование ли наклон точно 0. При достаточно большого размера выборки, даже небольшие отклонения от этой гипотезы (например , те , которые не практического значения) даст значительную -значение.р рppp

Из трех представленных вами величин , коэффициент детерминации , дает наибольшее представление о силе отношений. В вашем случае означает, что изменения вашей ответной переменной можно объяснить линейной связью с предиктором. То, что составляет «большой» зависит от дисциплины. Например, в социальных науках может быть «большим», но в контролируемых средах, таких как заводские настройки, может потребоваться, чтобы сказать, что существует «сильная» связь. В большинстве ситуаций очень маленькийR 2 = .089 8,9 % R 2 R 2 = .2 R 2 > .9 .089 R 2R2R2=.0898.9%R2R2=.2R2>.9.089R2, поэтому ваш вывод о наличии слабых линейных отношений, вероятно, обоснован.

макрос
источник
Спасибо Макро. Очень полезный ответ. Я рад, что вы включили часть о том, что именно p-значение тестирует. Имеет большой смысл, что значение p будет настолько низким, учитывая, насколько близок к 1 наклон. Мне кажется, что в свете вашего ответа и @jedfrancis значение r ^ 2 описывает это «облако» точек данных вокруг линии регрессии. Отлично! Теперь все намного понятнее!
Мог
@Macro (+1), хороший ответ. Но как "сила отношений" зависит от "размера перехвата"? AFAIK перехват вообще ничего не говорит о корреляции или «силе» линейных отношений.
whuber
@ whuber, вы правы - перехват не имеет значения и определенно не меняет корреляцию - я думал о регрессионной функции против и как-то думал о том, что второе является более сильными отношениями ( при прочих равных условиях), поскольку в последнем случае большее значение величины было обусловлено . Не имеет особого смысла сейчас, когда я думаю об этом. Я редактировал пост. у = х у хy=10000+xy=xyx
Макро
4
@macro Отличный ответ, но я бы подчеркнул (для новичков в этой теме), что R ^ 2 может быть очень низким даже при сильных отношениях, если отношения нелинейные, и особенно если они немонотонные. Мой любимый пример этого - связь между стрессом и оценкой на экзамене; очень низкий стресс и очень высокий стресс, как правило, хуже, чем умеренный стресс.
Питер Флом - Восстановить Монику
1
@macro Да, ваш ответ был хорош, но я работал с людьми, которые не знают много статистики, и я видел, что происходит ... иногда то, что мы говорим, не то, что они слышат!
Питер Флом - Восстановить Монику
14

говорит вам , сколько изменение зависимой переменной объясняется моделью. Тем не менее, можно интерпретировать а также корреляцию между исходными значениями зависимой переменной и подобранными значениями. Точную интерпретацию и вывод коэффициента детерминации можно найти здесь . R 2 R 2R2R2R2

Доказательство того, что коэффициент детерминации является эквивалентом коэффициента корреляции Пирсона Squared между наблюдаемыми значениями и подогнанные значения у я можно найти здесь .yiy^i

или коэффициент детерминации указывает на силу вашей модели в объяснения зависимой переменной. В вашем случае R 2 = 0,089 . Это то, что ваша модель способна объяснить 8,9% вариации вашей зависимой переменной. Или, коэффициент корреляции между у I и ваши подобранными значениями у я есть 0,089. То, что составляет хороший R 2, зависит от дисциплины.R2R2=0.089yiy^iR2

Наконец, к последней части вашего вопроса. Вы не можете заставить тест Дурбина-Ватсона что-то сказать о корреляции между вашими зависимыми и независимыми переменными. Тест Дурбина-Ватсона для последовательной корреляции. Он проводится для проверки взаимозависимости ваших терминов ошибок.

Лионель Бенза
источник
9

Значение говорит о том, насколько сильно варьируются данные с помощью подобранной модели.R2

Низкое значение в вашем исследовании предполагает, что ваши данные, вероятно, широко распространены вокруг линии регрессии, а это означает, что регрессионная модель может объяснить (очень мало) 8,9% изменений в данных.R2

Вы проверили, подходит ли линейная модель? Посмотрите на распределение ваших остатков, так как вы можете использовать это для оценки соответствия модели вашим данным. В идеале, ваши остатки не должны показывать связь с вашими значениями , и если это так, вы можете подумать о том, чтобы изменить ваши переменные подходящим способом или подобрать более подходящую модель.x

jedfrancis
источник
Спасибо, Джед. Да, я проверил нормальность остатков, и все было хорошо. Ваше предположение о том, что данные широко распространены вокруг этой линии регрессии, совершенно верно - точки данных выглядят как облако вокруг линии регрессии, построенной программным обеспечением.
Мог
1
Добро пожаловать на наш сайт, @jed, и спасибо за ваш ответ! Обратите внимание, что сам уклон почти ничего не говорит о корреляции, кроме ее знака, потому что корреляция не зависит от единиц измерения X и Y, а от наклона.
whuber
1
@whuber говорит, что значение наклона ничего не говорит вам о силе ассоциации, если переменные не стандартизированы. Смотри ветхий ответ.
wolf.rauch
@ wolf.rauch gotcha
jedfrancis
@ Jed Было бы хорошо, если бы вы исправили свой ответ.
whuber
7

R2yxxyR2

Короче говоря, наклон не является хорошим показателем соответствия модели, если вы не уверены, что шкалы зависимых и независимых переменных должны быть равны друг другу.

shabbychef
источник
1

Мне нравятся уже даные ответы, но позвольте мне дополнить их другим (и более насмешливым) подходом.

Предположим, мы собрали группу наблюдений от 1000 случайных людей, пытающихся выяснить, связаны ли удары по лицу с головными болями:

Headaches=β0+β1Punch_in_the_face+ε

ε

β1R2

Графически это, вероятно, выглядит как крутой склон, но с очень большим изменением вокруг этого склона.

CD98
источник
0

У @Macro был отличный ответ.

Расчетное значение уклона само по себе не говорит о силе отношений. Степень взаимосвязи зависит от размера ошибки и диапазона предиктора. Кроме того, значительное значение pp не обязательно говорит вам о наличии сильных отношений; значение pp просто проверяет, равен ли наклон 0.

Я просто хочу добавить числовой пример, чтобы показать, как выглядит описанный случай.

  • R2
  • Значительное значение p
  • 1.0

    set.seed(6)
    y=c(runif(100)*50,runif(100)*50+10)
    x=c(rep(1,100),rep(10,100))
    plot(x,y)
    
    fit=lm(y~x)
    summary(fit)
    abline(fit)
    
    
    > summary(lm(y~x))
    
    Call:
    lm(formula = y ~ x)
    
    Residuals:
       Min     1Q Median     3Q    Max 
    -24.68 -13.46  -0.87  14.21  25.14 
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept)  25.6575     1.7107  14.998  < 2e-16 ***
    x             0.9164     0.2407   3.807 0.000188 ***
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    
    Residual standard error: 15.32 on 198 degrees of freedom
    Multiple R-squared:  0.0682,    Adjusted R-squared:  0.06349 
    F-statistic: 14.49 on 1 and 198 DF,  p-value: 0.0001877
    

введите описание изображения здесь

Haitao Du
источник