В простой линейной модели с одной объясняющей переменной
Я считаю, что удаление члена перехвата значительно улучшает соответствие (значение идет от 0,3 до 0,9). Однако термин «перехват» представляется статистически значимым.
С перехватом:
Call: lm(formula = alpha ~ delta, data = cf) Residuals: Min 1Q Median 3Q Max -0.72138 -0.15619 -0.03744 0.14189 0.70305 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.48408 0.05397 8.97 <2e-16 *** delta 0.46112 0.04595 10.04 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.2435 on 218 degrees of freedom Multiple R-squared: 0.316, Adjusted R-squared: 0.3129 F-statistic: 100.7 on 1 and 218 DF, p-value: < 2.2e-16
Без перехвата:
Call: lm(formula = alpha ~ 0 + delta, data = cf) Residuals: Min 1Q Median 3Q Max -0.92474 -0.15021 0.05114 0.21078 0.85480 Coefficients: Estimate Std. Error t value Pr(>|t|) delta 0.85374 0.01632 52.33 <2e-16 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.2842 on 219 degrees of freedom Multiple R-squared: 0.9259, Adjusted R-squared: 0.9256 F-statistic: 2738 on 1 and 219 DF, p-value: < 2.2e-16
Как бы вы интерпретировали эти результаты? Должен ли термин «перехват» быть включен в модель или нет?
редактировать
Вот оставшиеся суммы квадратов:
RSS(with intercept) = 12.92305
RSS(without intercept) = 17.69277
r
linear-model
interpretation
r-squared
intercept
Эрнест А
источник
источник
Ответы:
Прежде всего, мы должны понимать, чтоR2
R
делает программное обеспечение, когда в модель не включен перехват. Напомним, что обычным вычислением при наличии перехвата является Первое равенство возникает только из-за включения в модель перехвата, хотя это, вероятно, более популярный из двух способов его написания. Второе равенство на самом деле обеспечивает более общую интерпретацию! Этот вопрос также рассматривается в этом связанном вопросе .R 2 = Σ я ( у я - ˉ у ) 2Но что произойдет, если в модели нет перехвата?
Ну, в этом случае
R
( тихо! ) Использует измененную формуЭто помогает вспомнить, что пытается измерить. В первом случае он сравнивает вашу текущую модель с эталонной моделью, которая включает только перехват (т. Е. Постоянный член). Во втором случае перехват отсутствует, поэтому нет смысла сравнивать его с такой моделью. Таким образом, вместо этого вычисляется , который неявно использует эталонную модель, соответствующую только шуму .R 2 0R2 R20
В дальнейшем я остановлюсь на втором выражении как для и для поскольку это выражение обобщает другие контексты, и в целом более естественно думать о вещах в терминах невязок.R 2 0R2 R20
Но чем они отличаются и когда?
Давайте сделаем небольшое отступление в линейную алгебру и посмотрим, сможем ли мы выяснить, что происходит. Прежде всего, давайте назовем подогнанные значения из модели с помощью intercept и подогнанные значения от модели без перехвата . ~ уy^ y~
Мы можем переписать выражения для и как а соответственно.R2 R20
Теперь, так как , то тогда и только тогда, когда∥y∥22=∥y−y¯1∥22+ny¯2 R20>R2
Левая часть больше единицы, поскольку модель, соответствующая , вложена в . Второе слагаемое в правой части - это среднеквадратичное значение ответов, деленное на среднеквадратичную ошибку модели только для пересечения. Таким образом, чем больше среднее значение отклика относительно другого варианта, тем больше у нас «слабости» и больше шансов на то, что доминирует над .y~ y^ R20 R2
Обратите внимание, что все зависящие от модели вещи находятся слева, а не зависящие от модели вещи - справа.
Итак, как мы можем сделать соотношение на левой стороне маленьким?
Напомним, что и где и - матрицы проекций, соответствующие подпространствам и такие что .y~=P0y y^=P1y P0 P1 S0 S1 S0⊂S1
Итак, чтобы отношение было близко к единице, нам нужно, чтобы подпространства и были очень похожими. Теперь и отличаются только тем, является ли базисным вектором или нет, так что это означает, что лучше быть подпространством, которое уже лежит очень близко к .S0 S1 S0 S1 1 S0 1
По сути, это означает, что у нашего предиктора лучше иметь сильное среднее смещение, и что это среднее смещение должно доминировать в вариации предиктора.
Пример
Здесь мы пытаемся сгенерировать пример с явным пересечением в модели, который ведет себя близко к случаю в вопросе. Ниже приведен простой
R
код для демонстрации.Это дает следующий вывод. Начнем с модели с перехвата.
Затем посмотрите, что происходит, когда мы исключаем перехват.
Ниже приведен график данных с моделью с перехватом красным цветом и моделью без перехвата синим цветом.
источник
Я бы основывал свое решение на информационных критериях, таких как критерии Акаике или Байеса-Шварца, а не на R ^ 2; даже тогда я бы не рассматривал их как абсолютные.
Если у вас есть процесс, где наклон близок к нулю, а все данные находятся далеко от источника, ваше правильное значение R ^ 2 должно быть низким, так как большая часть изменений в данных будет из-за шума. Если вы попытаетесь вписать такие данные в модель без перехвата, вы сгенерируете большой и неправильный термин наклона и, вероятно, будете выглядеть лучше R ^ 2, если используется бесплатная версия с перехватом.
Следующий график показывает, что происходит в этих крайних случаях. Здесь процесс генерации состоит в том, что x = 100,100,1, .... а y - это просто 100 + случайный шум со средним 0 и стандартным отклонением .1. Точки - черные круги, подгонка без пересечения - синяя линия, а подгонка с перехватом (обнуление наклона) - красная линия:
[Извините, это не позволит мне опубликовать график; запустите R-код ниже, чтобы сгенерировать его. Он показывает начало координат в левом нижнем углу, группу точек в верхнем правом углу. Плохая подгонка без перехвата идет из нижнего левого угла в верхний правый, а правильная подгонка - это линия, параллельная оси x]
Правильная модель для этого должна иметь R ^ 2 ноль --- постоянный плюс случайный шум. R даст вам и R ^ 2 0,99 для посадки без перехвата. Это не будет иметь большого значения, если вы будете использовать модель для прогнозирования только с значениями x в пределах диапазона обучающих данных, но с треском провалится, если x выходит за пределы узкого диапазона обучающего набора или вы пытаетесь получить истинное понимание вне предвидения.
AIC правильно показывает, что модель с перехватом является предпочтительной. Код R для этого:
Выход AIC
Обратите внимание, что AIC все еще получает неправильную модель в этом случае, поскольку истинная модель является постоянной моделью; но другие случайные числа приведут к данным, для которых AIC является наименьшим для постоянной модели. Обратите внимание, что если вы отбрасываете уклон, вам следует переоснастить модель без него, не пытаться использовать перехват из модели и игнорировать уклон.
источник