Какие преимущества предлагают «внутренне изученные остатки» по сравнению с необработанными расчетными остатками с точки зрения диагностики потенциальных влиятельных точек данных?

10

Причина, по которой я спрашиваю об этом, заключается в том, что кажется, что внутренне изученные остатки имеют ту же структуру, что и необработанные расчетные остатки. Было бы здорово, если бы кто-то мог предложить объяснение.

Scortchi - Восстановить Монику
источник

Ответы:

13

Предположим, модель регрессии с дизайн матрицы X1 колонке с последующим вашими предикторов), предсказания у = Х ( Х ' х ) - 1 х ' у = Н у (где Н является «hat- матрица "), а также остатки е = у - у . Модель регрессии предполагает , что истинные ошибки & epsi ; все они имеют один и тот же дисперсию (гомоскедастичности):Yзнак равноИксβ+εИкс1Y^знак равноИкс(Икс'Икс)-1Икс'Yзнак равноЧАСYЧАСезнак равноY-Y^ε

гомоскедастичности

В(е)знак равноσ2(я-ЧАС)еяσ2(1-часяя)σ2(я-ЧАС)ЧАСчасяя

е/(σ1-часяя)σ е/(σ^1-часяя)σ^

ε

каракал
источник
Различия в определениях между двумя различными типами остатков (а также внешне изученных остатков) мне понятны. На практике, однако, я не думаю, что сталкивался со случаями (по крайней мере, с моими собственными данными), когда внутренне изученные остатки имеют четкую картину по сравнению с оценочными остатками. С другой стороны, внешне изученные остатки могут потенциально отличаться от оцененных остатков. * Я не говорю, что два типа остатков одинаковы. Я имею в виду их общие закономерности.
@AlexH. Я согласен, что заявленное преимущество, которое я добавил, является теоретическим . Хорошим дополнением будет построение моделируемой эмпирической ситуации, в которой необработанные остатки вводят в заблуждение, а изученные остатки дают более точную картину условных распределений.
Каракал
12

На каких типах данных вы делали свои тестовые участки? Когда все предположения верны (или приблизятся), я бы не ожидал большой разницы между необработанными и изученными остатками, главное преимущество - это наличие очень влиятельных точек. Рассмотрим эти (смоделированные) данные, которые имеют положительную линейную тенденцию и очень влиятельный выброс:

введите описание изображения здесь

Вот график приведенных значений по сравнению с необработанными остатками:

введите описание изображения здесь

Обратите внимание, что значение остатка нашей влиятельной точки ближе к 0, чем минимальные и максимальные остатки от остальных точек (это не входит в 3 самых крайних необработанных остатка).

Теперь вот график со стандартизированными (внутренне изученными) остатками:

введите описание изображения здесь

На этом графике стандартизированный остаток отличается тем, что его влияние было учтено.

Икс

Грег Сноу
источник