Являются ли «изученные остатки» и «стандартизированные остатки» одинаковыми в регрессионных моделях? Я построил модель линейной регрессии в R и хотел построить график Studentized Остатки v / s, подобранные значения, но не нашел автоматизированный способ сделать это в R.
Предположим, у меня есть модель
library(MASS)
lm.fit <- lm(Boston$medv~(Boston$lstat))
затем использование plot(lm.fit)
не дает какого-либо графика стандартизированных остатков по сравнению с установленными значениями, но все же предоставляет график стандартизированных остатков по сравнению с установленными значениями.
Я использовал, plot(lm.fit$fitted.values,studres(lm.fit)
и он построит желаемый график. Так что просто хочу подтвердить, что я иду в правильном направлении, и Studentized и Standardized остатки не одно и то же. Если они отличаются, пожалуйста, предоставьте некоторое руководство для их расчета и определения. Я искал в сети и нашел это немного запутанным.
источник
R
терминология противоположна Монтгомери, Пеку и Вайнингу (популярному учебнику по регрессии, который существует уже 35 лет). Так что будьте осторожны и убедитесь, что вы изучаетеR
документацию и, при необходимости, ее исходный код, а не полагаетесь на то, что, по вашему мнению, означает терминология.Ответы:
Нет, стандартизированные остатки и стандартизированные остатки - это разные (но связанные) понятия.
R на самом деле обеспечивает встроенные функции
rstandard()
иrstudent()
как часть влияния . Тот же встроенный пакет предоставляет множество аналогичных функций для рычага, расстояние Кука и т. Д.rstudent()
, По сути, такое же, какMASS::studres()
, что вы можете проверить сами, например:Стандартизированные остатки - это способ оценки погрешности для конкретной точки данных, которая учитывает влияние / влияние точки. Их иногда называют «внутренне изученными остатками».
Мотивация стандартизированных остатков заключается в том, что, хотя наша модель предполагала гомоскедастичность с термином ошибки iid с фиксированной дисперсией , распределение, остатки не могут быть найдены, потому что сумма остатков всегда точно равна нулю.ϵi∼N(0,σ2) ei
Измеренные остатки для любой заданной точки данных рассчитываются по модели, подходящей для любой другой точки данных, кроме рассматриваемой. Они по-разному называются «внешне изученными остатками», «удаленными остатками» или «оставшимися без остатка остатками».
Это звучит сложно с вычислительной точки зрения ( кажется, что нам нужно было бы подобрать одну новую модель для каждой точки), но на самом деле есть способ вычислить ее из исходной модели без переоснащения. Если стандартизированный остаток равен , то остаток равен:ri ti
Мотивация к изучаемым остаткам исходит из их использования в тестах на выбросы. Если мы подозреваем, что точка является выбросом, то она не была сгенерирована из предполагаемой модели по определению. Следовательно, было бы ошибкой - нарушением допущений - включать этот выброс в подгонку модели. Изученные остатки широко используются при практическом обнаружении выбросов.
Изученные остатки также обладают желательным свойством, состоящим в том, что для каждой точки данных распределение остатка будет t-распределением Стьюдента при условии, что были выполнены предположения о нормальности исходной регрессионной модели. (Стандартизированные остатки не имеют такого хорошего распределения.)
Наконец, для решения любых проблем, связанных с тем, что библиотека R может следовать номенклатуре, отличной от приведенной выше, в документации R явно говорится, что они используют «стандартизированный» и «стандартизированный» в том же смысле, который описан выше.
источник