Как понять стандартизированный остаток в регрессионном анализе?

9

Согласно регрессионному анализу на примере , остаток представляет собой разницу между откликом и прогнозируемым значением, тогда говорят, что каждый остаток имеет различную дисперсию, поэтому нам нужно рассмотреть стандартизированные остатки.

Но дисперсия относится к группе значений, как одно значение может иметь дисперсию?

ccshao
источник
2
Это помогло бы процитировать учебник напрямую или (если он доступен онлайн) предоставить ссылку на него. Многое может потеряться, если хотя бы одно слово будет выведено из строя или из контекста. (Например, остатки обычно определяются как разница между предсказанием и ответом, а не наоборот.)
whuber
Отдельные случайные величины имеют отклонения. Остатки являются случайными величинами - они являются функциями данных. Таким образом, отдельные остатки (стандартизированные или нет) имеют отклонения.
Гость
#whuber Учебник "Regression.Analysis.by.Example", стр. 89. Обсуждались виды остатков. обычным остатком является прогноз-ответ. @guest "Отдельные случайные переменные имеют отклонения", это то, что я не понимаю, переменные - это свойство для образца, не так ли? почему одно значение в выборке (например, остаток) имеет дисперсию?
ccshao
У книги есть автор ...? Это обычно облегчает поиск. Я думаю, что вы путаете выборочную дисперсию и популяционную дисперсию. Остаток неизвестен до проведения эксперимента. Ответ является случайным и является остаточным, так как он является функцией ответа. Когда мы говорим о дисперсии остатка, мы говорим о дисперсии основной случайной величины.
MånsT
Приносим извинения за неудобства, авторами являются SAMPRIT CHATTEFUEE и ALI S. HADI, Регрессионный анализ на примере, четвертое издание.
ccshao

Ответы:

9

Я бы сказал, что индивидуальное число (например, остаток), полученное в результате случайного извлечения из распределения вероятностей, является реализованным значением , а не случайной величиной . Кроме того, я хотел бы сказать , что множество остатков, рассчитанный на основе данных и ваша модель подходит , используя е = у - у , представляет собой набор реализованных значений. Этот набор чисел может быть свободно концептуализирован как независимый от базового распределения ϵ ~ N ( μ , σ 2 )Ne=yy^ϵN(μ,σ2)Neei=0xiei=0

Теперь, учитывая некоторый набор чисел, будь они невязок или любой другой , это, конечно , верно , что они имеют дисперсию, , но это неинтересно. Что нас волнует, так это возможность что-то сказать о процессе генерирования данных (например, оценить дисперсию распределения населения). Используя предыдущую формулу, мы могли бы дать приближение, заменив N остаточными степенями свободы, но это не может быть хорошим приближением. Это тема, которая может быть очень сложной очень быстро, но несколько возможных причин могут быть гетероскедастичностью(eie¯)2/NN(то есть, что дисперсия населения отличается на разных уровнях ), и наличие выбросов (то есть, что данный остаток извлекается из другой популяции полностью). Практически наверняка на практике вы не сможете оценить дисперсию популяции, из которой был получен выброс, но, тем не менее, теоретически он имеет дисперсию. Я подозреваю, что что-то в этом роде имело в виду авторы, однако я должен отметить, что я не читал эту книгу. x

x

Gung - Восстановить Монику
источник
1
Спасибо! Рычаг - это то, чего я раньше не понимал. Для данных, у которых x близок к avg (x), эффект регрессии отсутствует или незначителен, что приводит к высокой дисперсии.
ccshao