Какие преимущества предлагают «внутренне изученные остатки» по сравнению с необработанными расчетными остатками с точки зрения диагностики потенциальных влиятельных точек данных?

10

Причина, по которой я спрашиваю об этом, заключается в том, что кажется, что внутренне изученные остатки имеют ту же структуру, что и необработанные расчетные остатки. Было бы здорово, если бы кто-то мог предложить объяснение.

residuals Scortchi - Восстановить Монику
источник

13

Предположим, модель регрессии с дизайн матрицы (в колонке с последующим вашими предикторов), предсказания (где является «hat- матрица "), а также остатки . Модель регрессии предполагает , что истинные ошибки & ; все они имеют один и тот же дисперсию (гомоскедастичности): $\bf{y} = \bf{X} \bf{\beta} + \bf{\epsilon}$ $\bf{X}$ $\bf{1}$ $\hat{\bf{y}} = \bf{X} (\bf{X}' \bf{X})^{-1} \bf{X}' \bf{y} = \bf{H} \bf{y}$ $\bf{H}$ $\bf{e} = \bf{y} - \hat{\bf{y}}$ $\bf{\epsilon}$

гомоскедастичности

$V(\bf{e}) = \sigma^{2} (\bf{I} - \bf{H})$ $e_{i}$ $\sigma^{2} (1-h_{ii})$ $\sigma^{2} (\bf{I} - \bf{H})$ $\bf{H}$ $h_{ii}$

$\bf{e} / (\sigma \sqrt{1 - h_{ii}})$ $\sigma$ $\bf{e} / (\hat{\sigma} \sqrt{1 - h_{ii}})$ $\hat{\sigma}$

$\epsilon$

каракал
источник

Различия в определениях между двумя различными типами остатков (а также внешне изученных остатков) мне понятны. На практике, однако, я не думаю, что сталкивался со случаями (по крайней мере, с моими собственными данными), когда внутренне изученные остатки имеют четкую картину по сравнению с оценочными остатками. С другой стороны, внешне изученные остатки могут потенциально отличаться от оцененных остатков. * Я не говорю, что два типа остатков одинаковы. Я имею в виду их общие закономерности.

@AlexH. Я согласен, что заявленное преимущество, которое я добавил, является теоретическим . Хорошим дополнением будет построение моделируемой эмпирической ситуации, в которой необработанные остатки вводят в заблуждение, а изученные остатки дают более точную картину условных распределений.

Каракал

12

На каких типах данных вы делали свои тестовые участки? Когда все предположения верны (или приблизятся), я бы не ожидал большой разницы между необработанными и изученными остатками, главное преимущество - это наличие очень влиятельных точек. Рассмотрим эти (смоделированные) данные, которые имеют положительную линейную тенденцию и очень влиятельный выброс:

введите описание изображения здесь

Вот график приведенных значений по сравнению с необработанными остатками:

введите описание изображения здесь

Обратите внимание, что значение остатка нашей влиятельной точки ближе к 0, чем минимальные и максимальные остатки от остальных точек (это не входит в 3 самых крайних необработанных остатка).

Теперь вот график со стандартизированными (внутренне изученными) остатками:

введите описание изображения здесь

На этом графике стандартизированный остаток отличается тем, что его влияние было учтено.

$x$

Грег Сноу
источник

Ответы: