Когда R в квадрате отрицательный?

78

Насколько я понимаю, не может быть отрицательным, поскольку это квадрат R. Однако я запустил простую линейную регрессию в SPSS с одной независимой переменной и зависимой переменной. Мой вывод SPSS дает мне отрицательное значение для . Если бы я должен был вычислить это вручную из R, то был бы положительным. Что SPSS сделал, чтобы рассчитать это как отрицательное?R 2 R 2R2R2R2

R=-.395
R squared =-.156
B (un-standardized)=-1261.611

Код, который я использовал:

DATASET ACTIVATE DataSet1. 
REGRESSION /MISSING LISTWISE /STATISTICS COEFF OUTS R ANOVA 
           /CRITERIA=PIN(.05) POUT(.10) /NOORIGIN 
           /DEPENDENT valueP /METHOD=ENTER ageP

Я получаю отрицательное значение. Кто-нибудь может объяснить, что это значит?

Отрицательный RSquared

введите описание изображения здесь

Энн
источник
3
Отвечает ли это на ваш вопрос? stats.stackexchange.com/questions/6181/… Если нет, то, пожалуйста, предоставьте больше информации: это «вывод SPSS» какой процедуры?
whuber
2
Есть ли у вашей модели линейной регрессии перехват?
NPE
2
@Anne Опять же, какую процедуру SPSS вы используете?
whuber
1
@ Анна, я предлагаю вам не принимать во внимание ответ временного ряда, потому что ваши данные не являются временным рядом, и вы не используете процедуру временного ряда. Вы действительно уверены, что квадрат R дан как отрицательное значение? Его величина правильная: . Я просмотрел справку SPSS, чтобы увидеть, возможно ли в качестве соглашения значение R-квадрата для отрицательных R отрицается, но я не вижу никаких доказательств того, что это так. Возможно, вы могли бы опубликовать снимок экрана с выводом, где вы читаете R-квадрат? (0.395)2=0.156
whuber
1
Зависимая переменная - это цена домов, поэтому вполне возможно, что 95% ДИ может составлять 120 000. К сожалению, я не могу опубликовать данные здесь, так как это противоречило бы условиям использования данных.
Анна

Ответы:

107

R 2 R 2 R 2R2 сравнивает соответствие выбранной модели с горизонтальной прямой (нулевая гипотеза). Если выбранная модель подходит хуже, чем горизонтальная линия, то является отрицательным. Обратите внимание, что не всегда является квадратом чего-либо, поэтому он может иметь отрицательное значение, не нарушая никаких правил математики. отрицателен только тогда, когда выбранная модель не следует тренду данных, поэтому подходит хуже, чем горизонтальная линия.R2R2R2

Пример: подгонка данных к модели линейной регрессии, ограниченной так, чтобы должно было равняться .1500Y1500

введите описание изображения здесь

Модель не имеет никакого смысла, учитывая эти данные. Это явно неправильная модель, возможно, выбранная случайно.

Подгонка модели (прямая, ограниченная проходом через точку (0,1500)) хуже, чем подгонка горизонтальной линии. Таким образом, сумма квадратов из модели больше, чем сумма квадратов из горизонтальной линии . вычисляется как . Когда больше, чем , это уравнение вычисляет отрицательное значение для .( S S tot ) R 2 1 - S S reg(SSreg)(SStot)R2 SSregSStotR21SSregSStotSSregSStotR2

При линейной регрессии без ограничений должно быть положительным (или нулевым) и равно квадрату коэффициента корреляции . Отрицательное значение возможно только при линейной регрессии, когда ограничены либо точка пересечения, либо наклон, так что линия «наилучшего соответствия» (с учетом ограничения) подходит хуже, чем горизонтальная линия. При нелинейной регрессии может быть отрицательным, когда модель наилучшего соответствия (с учетом выбранного уравнения и его ограничений, если таковые имеются) соответствует данным, которые хуже горизонтальной линии. r R 2 R 2R2rR2R2

Итог: отрицательный не является математической невозможностью или признаком компьютерной ошибки. Это просто означает, что выбранная модель (с ее ограничениями) очень плохо вписывается в данные.R2

Харви Мотульский
источник
3
@JMS Это противоположно тому, что указывает мой Google: «/ ORIGIN» фиксирует перехват в 0; «/ NOORIGIN» «говорит SPSS не подавлять константу» ( Вводное руководство по SPSS для Windows )
whuber
10
@whuber Правильно. @ harvey-motulsky Отрицательное значение R ^ 2 является математической невозможностью (и предполагает ошибку компьютера) для регулярной регрессии OLS (с перехватом). Это то, что делает команда «REGRESSION» и о чем спрашивает оригинальный постер. Кроме того, для регрессии МНК R ^ 2 является квадратом корреляции между прогнозируемыми и наблюдаемыми значениями. Следовательно, оно должно быть неотрицательным. Для простой регрессии OLS с одним предиктором это эквивалентно квадрату корреляции между предиктором и зависимой переменной - опять же, это должно быть неотрицательным.
Вольфганг
1
@whuber Действительно. Виноват; очевидно я не использую SPSS - или читаю, по-видимому :)
JMS
1
@whuber. Я добавил параграф, указывающий, что при линейной регрессии R2 может быть отрицательным только тогда, когда ограничен перехват (или, возможно, наклон). Без ограничений, R2 должен быть положительным и равен квадрату r, коэффициент корреляции.
Харви Мотульский
1
@HarveyMotulsky, в этом случае перехват или наклон не были ограничены. Кажется, вы говорите, что Rsquared может быть отрицательным, только если они ограничены. Можете ли вы уточнить, что могло произойти в этом конкретном случае?
Анна
19

Вы забыли включить перехват в свою регрессию? Я не знаком с кодом SPSS, но на странице 21 Эконометрики Хаяси:

R2

R2=1i=1nei2i=1n(yiy¯)2

R2

Я бы проверил и убедился, что SPSS включает перехват в вашей регрессии.

jefflovejapan
источник
4
Субкоманда NOORIGIN в ее коде говорит, что перехват был включен в модель
ttnphns
2
это странно. Я предположил NOORIGINбы, что это будет означать, что перехват не был включен в модель, просто уходя от имени.
Мэтт О'Брайен
6

Это может произойти, если у вас есть временной ряд, который является Niid, и вы строите неподходящую модель ARIMA вида (0,1,0), которая представляет собой модель случайного блуждания с первой разницей без смещения, а затем с дисперсией (сумма квадратов - SSE) из остатков будет больше, чем дисперсия (сумма квадратов SSO) исходного ряда. Таким образом, уравнение 1-SSE / SSO даст отрицательное число, поскольку SSE превышает SSO. Мы видели это, когда пользователи просто соответствуют предполагаемой модели или используют неадекватные процедуры, чтобы идентифицировать / сформировать соответствующую структуру ARIMA. Более широкое сообщение - то, что модель может исказить (как пара плохих очков) ваше зрение. Без доступа к вашим данным у меня не было бы проблемы с объяснением ваших ошибочных результатов. Вы довели это до сведения IBM?

Идея предполагаемой модели, являющейся контрпродуктивной, была поддержана Харви Мотульским. Отличный пост Харви!

IrishStat
источник
1
стат. Благодарю. Нет, я не говорил с IBM. Данные не являются временными рядами. Это с момента времени данных.
Анна
5
@ Анна и другие. Поскольку ваши данные не являются временными рядами, а вы не используете процедуру временных рядов, не обращайте внимания на мой ответ. Другие, которые наблюдали отрицательные R-квадраты, когда связаны с временными рядами, могут найти мой пост интересным и касательно информативным. Другие, к сожалению, не могут.
IrishStat
@IrishStat: Не могли бы вы добавить ссылку на пост Харви Мотульски?
kjetil b halvorsen
Харви ответил на вопрос здесь.
IrishStat