Почему стандартная ошибка перехвата увеличивается с увеличением

13

Стандартная ошибка свободного члена ( β 0 ) в у = β 1 х + β 0 + ε задается S E ( β 0 ) 2 = σ 2 [ 1β^0y=β1x+β0+ε

SE(β^0)2=σ2[1n+x¯2i=1n(xix¯)2]
гдеx¯представляет собой среднее изxi«ы.

Из того, что я понимаю, SE квантифицирует ваш uncertainty-, например, в 95% образцов, интервал будет содержать истинное & beta ; 0 . Я не понимаю, как SE, мера неопределенности, увеличивается с ˉ x . Если я просто перенесу свои данные, так что ˉ x = 0 , моя неопределенность уменьшится? Это кажется неразумным.[β^02SE,β^0+2SE]β0x¯x¯=0

Аналогичная интерпретация - в uncentered версии моих соответствует моему предсказанию при х = 0 , в то время как в центрированных данных, & beta ; 0 соответствует моему предсказанию при й = ˉ х . Так значит ли это, что моя неопределенность в отношении моего прогноза при x = 0 больше, чем моя неопределенность в отношении моего прогноза при x = ˉ x ? Это тоже кажется необоснованным, ошибка ϵ имеет одинаковую дисперсию для всех значений xβ^0x=0β^0x=x¯x=0x=x¯ϵx, поэтому моя неопределенность в моих предсказанных значениях должна быть одинаковой для всех .x

Я уверен, что в моем понимании есть пробелы. Может ли кто-нибудь помочь мне понять, что происходит?

elexhobby
источник
3
Вы когда-нибудь регрессировали против свидания? Многие компьютерные системы начинают свое существование в далеком прошлом, часто более 100 или более 2000 лет назад. Перехват оценивает ценность ваших данных, экстраполированных назад к тому времени начала. Насколько вы были бы уверены, скажем, в валовом внутреннем продукте Ирака в 0 году н.э. на основе регрессии ряда данных 21-го века?
whuber
Я согласен, это имеет смысл, если вы думаете об этом таким образом. Это и ответ Ганга проясняют ситуацию.
elexhobby
2
Этот ответ дает интуитивное объяснение (с диаграммами) того, как он возникает, приведением подгоночной линии в терминах подгонки к среднему значению ( подобранная линия проходит через ( ˉ x , ˉ y ) ) и показывает, почему положение где линия может идти, распространяется по мере удаления от ˉ x (что вызвано неопределенностью на склоне). x¯(x¯,y¯)x¯
Glen_b

Ответы:

16

Поскольку линия регрессии, соответствующая обычным наименьшим квадратам, обязательно пройдет через среднее значение ваших данных (т. Е. ) - по крайней мере, до тех пор, пока вы не подавите перехват - неопределенность относительно истинного значения наклон не оказывает никакого влияния на вертикальное положение линии на среднее значение х (т.е. при у ˉ х ). Это приводит к меньшей вертикальной неопределенности при ˉ x, чем дальше от ˉ x . Если перехват, где х = 0 является ˉ х(x¯,y¯)xy^x¯x¯x¯x=0x¯ , то это минимизирует вашу неопределенность относительно истинного значения β0 . В математических терминах это выражается в минимально возможное значение стандартной ошибки для р 0 . β^0

Вот быстрый пример в R:

set.seed(1)                           # this makes the example exactly reproducible
x0      = rnorm(20, mean=0, sd=1)     # the mean of x varies from 0 to 10
x5      = rnorm(20, mean=5, sd=1)
x10     = rnorm(20, mean=10, sd=1)
y0      = 5 + 1*x0  + rnorm(20)       # all data come from the same  
y5      = 5 + 1*x5  + rnorm(20)       #  data generating process
y10     = 5 + 1*x10 + rnorm(20)
model0  = lm(y0~x0)                   # all models are fit the same way
model5  = lm(y5~x5)
model10 = lm(y10~x10)

enter image description here

Эта цифра немного занята, но вы можете увидеть данные нескольких разных исследований, где распределение было ближе или дальше от 0 . Склоны немного отличаются от учебы к учебе, но в значительной степени похожи. (Обратите внимание , все они идут через кружок X , который я использовал для метки ( ˉ х , ˉ у ) .) Тем не менее, неопределенность относительно истинного значения этих склонов вызывают неопределенность у расширить в дальнейшем вы получите от ˉ х , Это означает, что S Ex0(x¯,y¯)y^x¯SE(β^0)очень широк для данных, которые были отобраны в окрестности , и очень узок для исследования, в котором данные были отобраны около х = 0 . x=10x=0


Редактировать в ответ на комментарий: К сожалению, центрирование данные после того, как вы их не помогут вам , если вы хотите знать , вероятно значения при некотором х значений х новое . Вместо этого вам необходимо сосредоточить сбор данных на том месте, о котором вы заботитесь в первую очередь. Чтобы лучше понять эти проблемы, вам может помочь прочесть мой ответ здесь: Интервал прогнозирования линейной регрессии . yxxnew

Gung - Восстановить Монику
источник
Итак, допустим, почему-то меня больше всего интересует прогноз на значение . Вышеприведенное объяснение подразумевает, что я не должен центрировать свои данные (т.е. смещать x так, чтобы ˉ x = 0 ), а вместо этого сдвигать их так, чтобы ˉ x = x . Это верно? x=xxx¯=0x¯=x
elexhobby
(xx¯)2x¯2
@elexhobby, я добавил некоторую информацию, чтобы ответить на твой комментарий, возможно, тебе захочется взглянуть на связанный материал. Дайте мне знать, если вам все еще нужно больше.
gung - Восстановить Монику
SE(β^1)=σ2(xix¯)2xnewSE(β^1)(xnewx¯)2. Furthermore, the error due to uncertainty in the vertical position of the line is σ2n. Combine these together, and we get the uncertainty in the predicted value due to uncertainty in β^1 and β^0 is σ2n+σ2(xnewx¯)2(xix¯)2. Correct me if I'm wrong.
elexhobby
1
Furthermore, it is clear why the error in the vertical position is σ2n - we know that the line has to pass through y¯ at x=x¯. Now y¯ contains the average of n iid errors, and hence will have SE equal to σ2n. Wow! Thanks a lot for your diagram and clear explanation, I really appreciate.
elexhobby