Причина, по которой я спрашиваю об этом, заключается в том, что кажется, что внутренне изученные остатки имеют ту же структуру, что и необработанные расчетные остатки. Было бы здорово, если бы кто-то мог предложить объяснение.
10
Предположим, модель регрессии с дизайн матрицы X (в 1 колонке с последующим вашими предикторов), предсказания у = Х ( Х ' х ) - 1 х ' у = Н у (где Н является «hat- матрица "), а также остатки е = у - у . Модель регрессии предполагает , что истинные ошибки & epsi ; все они имеют один и тот же дисперсию (гомоскедастичности):
На каких типах данных вы делали свои тестовые участки? Когда все предположения верны (или приблизятся), я бы не ожидал большой разницы между необработанными и изученными остатками, главное преимущество - это наличие очень влиятельных точек. Рассмотрим эти (смоделированные) данные, которые имеют положительную линейную тенденцию и очень влиятельный выброс:
Вот график приведенных значений по сравнению с необработанными остатками:
Обратите внимание, что значение остатка нашей влиятельной точки ближе к 0, чем минимальные и максимальные остатки от остальных точек (это не входит в 3 самых крайних необработанных остатка).
Теперь вот график со стандартизированными (внутренне изученными) остатками:
На этом графике стандартизированный остаток отличается тем, что его влияние было учтено.
источник