Допустим, у меня есть два одномерных массива, и . Каждый содержит 100 точек данных. - фактические данные, а - прогноз модели. В этом случае значение будет следующим: Между тем, это будет равно квадратному значению коэффициента корреляции, Теперь, если я поменяю местами: - это фактические данные, а - прогноз модели. Из уравнения
Так как коэффициент корреляции не имеет значения, что будет первым, значение будет таким же. Тем не менее, из уравнения , , то значение будет меняться, так как изменилось , если мы включаем от к ; в то же время не изменяется. S S т о т у а 1 2 S S R é сек = Е I ( F I -
Мой вопрос: как они могут противоречить друг другу?
Редактировать :
Мне было интересно, будут ли отношения в формуле. (2) все еще стоять, если это не простая линейная регрессия, т. Е. Взаимосвязь между IV и DV не является линейной (может быть экспоненциальной / log)?
Сохранятся ли эти отношения, если сумма ошибок предсказания не равна нулю?
correlation
r-squared
Шон Ван
источник
источник
Ответы:
Это верно , чтоSStot изменится ... но вы забыли о том , что регрессия сумма квадратов будет меняться. Итак, давайте рассмотрим простую модель регрессии и обозначим коэффициент корреляции как r2xy=S2xySxxSyy , где я использовал субиндексxy чтобы подчеркнуть тот факт, чтоx является независимой переменной, аy является зависимой переменной. Очевидно, чтоr2xy не изменится, если вы поменяете местамиx сy . Легко показать, чтоSSRxy=Syy(R2xy) , гдеSSRxy - сумма регрессии квадратов и Syy - общая сумма квадратов, гдеx является независимым, аy является зависимой переменной. Следовательно:гдеSSExy- соответствующая остаточная сумма квадратов, гдеxявляется независимым, аyявляется зависимой переменной. Обратите внимание, что в этом случае мы имеемSSExy=b2 x y Sxxсb=Sxy
источник
Один из способов интерпретации коэффициент детерминации должен смотреть на него как коэффициент корреляции Пирсона Брусковый между наблюдаемыми значениями у я и подобранными значениями у я .R2 yi y^i
Полное доказательство того, как вывести коэффициент детерминации R2 из квадратичного коэффициента корреляции Пирсона между наблюдаемыми значениями yi и подобранными значениями y ^ i, можно найти по следующей ссылке:
http://economictheoryblog.wordpress.com/2014/11/05/proof/
На мой взгляд, это должно быть довольно легко понять, просто следуйте простым шагам. Я думаю, что важно понять, как на самом деле работает взаимодействие между двумя ключевыми фигурами.
источник
В случае простой линейной регрессии только с одним предиктором . Но при множественной линейной регрессии с более чем одним предиктором концепция корреляции между предикторами и ответом не распространяется автоматически. Формула получает:R2=r2=Corr(x,y)2
Квадрат корреляции между откликом и подобранной линейной моделью.
источник
@Stat предоставил подробный ответ. В своем коротком ответе я кратко покажу несколько иным образом, в чем сходство и различие между и r 2 .r r2
представляет собой стандартизованный коэффициент регрессиибетаиз Y с помощью X или X на Y икак таковое, оно является мерой (взаимной)величины эффекта. Что наиболее четко видно, когда переменные являются дихотомическими. Тогда r , например, .30 означает, что 30% случаев изменит свое значение на противоположное в одной переменной, когда другая переменная изменит свое значение на противоположное.r Y X X Y r .30
, с другой стороны, является выражениемдоли совместной изменчивостив общей изменчивости: r 2 = ( c o vr2 r2=(covσxσy)2=|cov|σ2x|cov|σ2y r2 prop∗prop−−−−−−−−−√ , which is very r .
(The two ratios are multiplicative, not additive, to stress the idea that they collaborate and cannot compensate for each other, in their teamwork. They have to be multiplicative because the magnitude ofcov is dependent on both magnitudes σ2x and σ2y and, conformably, cov has to be divided two times in once - in order to convert itself to a proper "proportion of the shared variance". But cov , the "cross-variance", shares the same measurement units with both σ2x and σ2y , the "self-variances", and not with σxσy , the "hybrid variance"; that is why r2 , not r , is more adequate as the "proportion of shared variance".)
So, you see that meaning ofr and r2 as a measure of the quantity of the association is different (both meanings valid), but still these coefficients in no way contradict each other. And both are the same whether you predict Y~X or X~Y .
источник
I think you might be mistaken. IfR2=r2 , I assume you have a bivariate model: one DV, one IV. I don't think R2 will change if you swap these, nor if you replace the IV with the predictions of the DV that are based on the IV. Here's code for a demonstration in R:
If you aren't working with a bivariate model, your choice of DV will affectR2 ...unless your variables are all identically correlated, I suppose, but this isn't much of an exception. If all the variables have identical strengths of correlation and also share the same portions of the DV's variance (e.g. [or maybe "i.e."], if some of the variables are completely identical), you could just reduce this to a bivariate model without losing any information. Whether you do or don't, R2 still wouldn't change.
In all other cases I can think of with more than two variables,R2≠r2 where R2 is the coefficient of determination and r is a bivariate correlation coefficient of any kind (not necessarily Pearson's; e.g., possibly also a Spearman's ρ ).
источник