Является ли стандартизированные остатки v / s стандартизированных остатков в модели ЛМ

10

Являются ли «изученные остатки» и «стандартизированные остатки» одинаковыми в регрессионных моделях? Я построил модель линейной регрессии в R и хотел построить график Studentized Остатки v / s, подобранные значения, но не нашел автоматизированный способ сделать это в R.

Предположим, у меня есть модель

library(MASS)

lm.fit <- lm(Boston$medv~(Boston$lstat))

затем использование plot(lm.fit)не дает какого-либо графика стандартизированных остатков по сравнению с установленными значениями, но все же предоставляет график стандартизированных остатков по сравнению с установленными значениями.

Я использовал, plot(lm.fit$fitted.values,studres(lm.fit)и он построит желаемый график. Так что просто хочу подтвердить, что я иду в правильном направлении, и Studentized и Standardized остатки не одно и то же. Если они отличаются, пожалуйста, предоставьте некоторое руководство для их расчета и определения. Я искал в сети и нашел это немного запутанным.

ученик
источник
2
+1 Это в заблуждение , потому что (а) действительно эти типы невязок отличаются , но (б) различные органы власти не договорились о том , что их называют! Например, Rтерминология противоположна Монтгомери, Пеку и Вайнингу (популярному учебнику по регрессии, который существует уже 35 лет). Так что будьте осторожны и убедитесь, что вы изучаете Rдокументацию и, при необходимости, ее исходный код, а не полагаетесь на то, что, по вашему мнению, означает терминология.
whuber

Ответы:

11

Нет, стандартизированные остатки и стандартизированные остатки - это разные (но связанные) понятия.

R на самом деле обеспечивает встроенные функции rstandard()и rstudent()как часть влияния . Тот же встроенный пакет предоставляет множество аналогичных функций для рычага, расстояние Кука и т. Д. rstudent(), По сути, такое же, как MASS::studres(), что вы можете проверить сами, например:

> all.equal(MASS::studres(model), rstudent(model))
[1] TRUE

Стандартизированные остатки - это способ оценки погрешности для конкретной точки данных, которая учитывает влияние / влияние точки. Их иногда называют «внутренне изученными остатками».

ri=eis(ei)=eiMSE(1hii)

Мотивация стандартизированных остатков заключается в том, что, хотя наша модель предполагала гомоскедастичность с термином ошибки iid с фиксированной дисперсией , распределение, остатки не могут быть найдены, потому что сумма остатков всегда точно равна нулю.ϵiN(0,σ2)ei

Измеренные остатки для любой заданной точки данных рассчитываются по модели, подходящей для любой другой точки данных, кроме рассматриваемой. Они по-разному называются «внешне изученными остатками», «удаленными остатками» или «оставшимися без остатка остатками».

Это звучит сложно с вычислительной точки зрения ( кажется, что нам нужно было бы подобрать одну новую модель для каждой точки), но на самом деле есть способ вычислить ее из исходной модели без переоснащения. Если стандартизированный остаток равен , то остаток равен:riti

ti=ri(nk2nk1ri2)1/2,

Мотивация к изучаемым остаткам исходит из их использования в тестах на выбросы. Если мы подозреваем, что точка является выбросом, то она не была сгенерирована из предполагаемой модели по определению. Следовательно, было бы ошибкой - нарушением допущений - включать этот выброс в подгонку модели. Изученные остатки широко используются при практическом обнаружении выбросов.

Изученные остатки также обладают желательным свойством, состоящим в том, что для каждой точки данных распределение остатка будет t-распределением Стьюдента при условии, что были выполнены предположения о нормальности исходной регрессионной модели. (Стандартизированные остатки не имеют такого хорошего распределения.)

Наконец, для решения любых проблем, связанных с тем, что библиотека R может следовать номенклатуре, отличной от приведенной выше, в документации R явно говорится, что они используют «стандартизированный» и «стандартизированный» в том же смысле, который описан выше.

Функции rstandardи rstudentдают стандартизированные и Studentized остатки соответственно. (Они повторно нормализуют остатки, чтобы получить единичную дисперсию, используя общую и непропорциональную меру дисперсии ошибки соответственно.)

olooney
источник