Связь между

40

Допустим, у меня есть два одномерных массива, a1 и . Каждый содержит 100 точек данных. - фактические данные, а - прогноз модели. В этом случае значение будет следующим: Между тем, это будет равно квадратному значению коэффициента корреляции, Теперь, если я поменяю местами: - это фактические данные, а - прогноз модели. Из уравненияa2a1a2R2

R2=1SSresSStot  (1).
R2=(Correlation Coefficient)2(2).
a2a1(2)Так как коэффициент корреляции не имеет значения, что будет первым, значение R2 будет таким же. Тем не менее, из уравнения (1) , SStot=i(yiy¯)2 , то значение будет меняться, так как изменилось , если мы включаем от к ; в то же время не изменяется. S S т о т у а 1 2 S S R é сек = Е I ( F I -R2SStotya1a2SSres=i(fiy¯)2

Мой вопрос: как они могут противоречить друг другу?

Редактировать :

  1. Мне было интересно, будут ли отношения в формуле. (2) все еще стоять, если это не простая линейная регрессия, т. Е. Взаимосвязь между IV и DV не является линейной (может быть экспоненциальной / log)?

  2. Сохранятся ли эти отношения, если сумма ошибок предсказания не равна нулю?

Шон Ван
источник
Я нашел эту презентацию очень полезной и нетехнической: google.com/…
ihadanny

Ответы:

19

Это верно , что SStot изменится ... но вы забыли о том , что регрессия сумма квадратов будет меняться. Итак, давайте рассмотрим простую модель регрессии и обозначим коэффициент корреляции как rxy2=Sxy2SxxSyy , где я использовал субиндексxyчтобы подчеркнуть тот факт, чтоxявляется независимой переменной, аyявляется зависимой переменной. Очевидно, чтоrxy2 не изменится, если вы поменяете местамиxсy. Легко показать, чтоSSRxy=Syy(Rxy2), гдеSSRxy- сумма регрессии квадратов и Syy - общая сумма квадратов, гдеx является независимым, аy является зависимой переменной. Следовательно:гдеSSExy- соответствующая остаточная сумма квадратов, гдеxявляется независимым, аyявляется зависимой переменной. Обратите внимание, что в этом случае мы имеемSSExy=b2 x y Sxxсb=Sxy

Rxy2=SSRxySyy=SyySSExySyy,
SSExyxySSExy=bxy2Sxx (см., Например, уравнение (34) - (41)здесь.) Следовательно:R2 x y =Syy- S 2 x yb=SxySxxОчевидно, что вышеприведенное уравнение симметрично относительноxиy. Другими словами:R2 x y =R2 y x . Подводя итог, когда вы меняетеxнаyв простой регрессионной модели, числитель и знаменательR2 x y =SSRxy
Rxy2=SyySxy2Sxx2.SxxSyy=SyySxxSxy2Sxx.Syy.
xy
Rxy2=Ryx2.
xy изменится так, чтоR2 x y =R2 y x .Rxy2=SSRxySyyRxy2=Ryx2.
Stat
источник
Спасибо большое! Я заметил, что это может быть там, где я был неправ: стоит, только если 1) прогноз модели является прямой линией и 2) среднее значение прогнозирования модели равно среднему значению точек выборки. Если взаимосвязь между DV и IV не является прямой линией или сумма ошибок прогнозирования не равна нулю, взаимосвязь не сохранится. Не могли бы вы дать мне знать, правильно ли это? R2=r2
Шон Ван
1
Я думал об этом, потому что вы использовали , в то время как я использовал уравнение, которое я разместил в ОП. Эти два уравнения эквивалентны друг другу только тогда, когда сумма ошибок прогнозирования равна нулю. Следовательно, в моем OP, S S R é сек = Е I ( е я - ˉ у ) 2 не изменяется в то время как S S т о т изменяется, и , следовательно, R 2R2=SSreg/SStotSSres=i(fiy¯)2SStotR2изменено
Шон Ван
У вас случайно есть справка о том, как это решить для общего случая гауссианов p-вариации?
JMB
26

Один из способов интерпретации коэффициент детерминации должен смотреть на него как коэффициент корреляции Пирсона Брусковый между наблюдаемыми значениями у я и подобранными значениями у я .R2yiy^i

Полное доказательство того, как вывести коэффициент детерминации R2 из квадратичного коэффициента корреляции Пирсона между наблюдаемыми значениями yi и подобранными значениями y ^ i, можно найти по следующей ссылке:

http://economictheoryblog.wordpress.com/2014/11/05/proof/

На мой взгляд, это должно быть довольно легко понять, просто следуйте простым шагам. Я думаю, что важно понять, как на самом деле работает взаимодействие между двумя ключевыми фигурами.

Андреас Дибиаси
источник
6

В случае простой линейной регрессии только с одним предиктором . Но при множественной линейной регрессии с более чем одним предиктором концепция корреляции между предикторами и ответом не распространяется автоматически. Формула получает: R2=r2=Corr(x,y)2

R2=Corr(yestimated,yobserved)2

Квадрат корреляции между откликом и подобранной линейной моделью.

мужчина
источник
5

@Stat предоставил подробный ответ. В своем коротком ответе я кратко покажу несколько иным образом, в чем сходство и различие между и r 2 .rr2

представляет собой стандартизованный коэффициент регрессиибетаиз Y с помощью X или X на Y икак таковое, оно является мерой (взаимной)величины эффекта. Что наиболее четко видно, когда переменные являются дихотомическими. Тогда r , например, .30 означает, что 30% случаев изменит свое значение на противоположное в одной переменной, когда другая переменная изменит свое значение на противоположное.rYXXYr.30

, с другой стороны, является выражениемдоли совместной изменчивостив общей изменчивости: r 2 = ( c o vr2r2=(covσxσy)2=|cov|σx2|cov|σy2r2propprop, which is very r.

(The two ratios are multiplicative, not additive, to stress the idea that they collaborate and cannot compensate for each other, in their teamwork. They have to be multiplicative because the magnitude of cov is dependent on both magnitudes σx2 and σy2 and, conformably, cov has to be divided two times in once - in order to convert itself to a proper "proportion of the shared variance". But cov, the "cross-variance", shares the same measurement units with both σx2 and σy2, the "self-variances", and not with σxσy, the "hybrid variance"; that is why r2, not r, is more adequate as the "proportion of shared variance".)

So, you see that meaning of r and r2 as a measure of the quantity of the association is different (both meanings valid), but still these coefficients in no way contradict each other. And both are the same whether you predict Y~X or X~Y.

ttnphns
источник
Thank you so much! I am starting to wonder whether I am using the wrong definition, that two definitions of R2 co-exist and they are not equivalent to each other. Could you please help me in the question that - if I am thinking about more generalized cases where the model is not a simple linear regression (could be exponential) - is my equation in the OP still correct for calculating R2? Is this a different quantity, also called R2, but different from the "coefficient of determination"?
Shawn Wang
Coefficient of determination or R-square is a wider concept than r^2 which is only about simple linear regression. Please read wikipedia en.wikipedia.org/wiki/Coefficient_of_determination.
ttnphns
Thanks again! That I do understand. My question is: for more complex regressions, can I still square the r value to get the coefficient of determination?
Shawn Wang
1
For a "complex regression", you get R-square, but you don't get r.
ttnphns
1

I think you might be mistaken. If R2=r2, I assume you have a bivariate model: one DV, one IV. I don't think R2 will change if you swap these, nor if you replace the IV with the predictions of the DV that are based on the IV. Here's code for a demonstration in R:

x=rnorm(1000); y=rnorm(1000)              # store random data
summary(lm(y~x))                          # fit a linear regression model (a)
summary(lm(x~y))                          # swap variables and fit the opposite model (b)
z=lm(y~x)$fitted.values; summary(lm(y~z)) # substitute predictions for IV in model (a)

If you aren't working with a bivariate model, your choice of DV will affect R2...unless your variables are all identically correlated, I suppose, but this isn't much of an exception. If all the variables have identical strengths of correlation and also share the same portions of the DV's variance (e.g. [or maybe "i.e."], if some of the variables are completely identical), you could just reduce this to a bivariate model without losing any information. Whether you do or don't, R2 still wouldn't change.

In all other cases I can think of with more than two variables, R2r2 where R2 is the coefficient of determination and r is a bivariate correlation coefficient of any kind (not necessarily Pearson's; e.g., possibly also a Spearman's ρ).

Nick Stauner
источник
1
I recently did Theil linear regression then calculated R2=0.1468 and SSR>SST. I have seen Excel produce R2-values as well, and at first I laughed at it, then slowly came understanding and it ceased to be funny. So is the general definition of R2 correct? What gives.
Carl