Предположим, мы запустили простую линейную регрессию , сохранили невязки и нарисовали гистограмму распределения невязок. Если мы получим что-то похожее на знакомый дистрибутив, можем ли мы предположить, что наш термин ошибки имеет такое распределение? Скажем, если мы выяснили, что остатки похожи на нормальное распределение, имеет ли смысл предполагать нормальность погрешности в популяции? Я думаю, что это разумно, но как это может быть оправдано?
r
regression
residuals
marcin63
источник
источник
Ответы:
Все зависит от того, как вы оцениваете параметры . Обычно, оценки являются линейными, что означает, что остатки являются линейными функциями данных. Когда ошибки есть нормальное распределение, то так делают данные, откуда так что невязки ˙U I ( I индексы МИОНы данных, конечно).ui u^i i
Возможно (и логически возможно), что когда остатки имеют примерно нормальное (одномерное) распределение, это происходит из -за ненормального распределения ошибок. Однако при использовании методов оценки методом наименьших квадратов (или максимального правдоподобия) линейное преобразование для вычисления остатков является «умеренным» в том смысле, что характеристическая функция (многовариантного) распределения остатков не может сильно отличаться от ср ошибок. ,
На практике нам никогда не нужно, чтобы ошибки были точно нормально распределены, так что это неважная проблема. Гораздо важнее ошибки: 1) все их ожидания должны быть близки к нулю; (2) их корреляции должны быть низкими; и (3) должно быть приемлемо небольшое количество отдаленных значений. Чтобы проверить это, мы применяем различные тесты соответствия, корреляционные тесты и тесты выбросов (соответственно) для остатков. Тщательное регрессионное моделирование всегда включает в себя выполнение таких тестов (которые включают в себя различные графические визуализации остатков, например, автоматически предоставляемые методом R
plot
при применении кlm
классу).Еще один способ решения этого вопроса - моделирование из гипотетической модели. Вот некоторый (минимальный, одноразовый)
R
код для выполнения этой работы:Для случая п = 32, эта вероятность накладного участок 99 наборов остатков показывают , что они имеют тенденцию быть близко к распределению ошибок (который является стандартным нормальным), потому что они равномерно расщеплять к опорной линии :y=x
Для случая n = 6 меньший медианный наклон на графиках вероятности указывает на то, что отклонения имеют немного меньшую дисперсию, чем ошибки, но в целом они имеют тенденцию быть нормально распределенными, поскольку большинство из них достаточно хорошо отслеживают опорную линию (учитывая небольшое значение ):n
источник
rexp(n)
вместо того, чтобыrnorm(n)
генерировать ваши данные. Распределение остатков будет ПУТЬ ближе к нормальному, чем вы думаете.источник
Я бы сказал, что вы не можете этого сделать, так как модель, которую вы только что подобрали, является недействительной, если предположение нормальности относительно ошибок не выполняется. (в том смысле, что форма распределения явно ненормальна, например, Коши и т. д.)
Обычный подход вместо предположения о распределенных пуассоновских ошибках состоит в том, чтобы выполнить некоторую форму преобразования данных, такую как log y или 1 / y, чтобы нормализовать невязки. (также истинная модель может быть не линейной, что может привести к тому, что отображенные остатки будут выглядеть странно распределенными, даже если они на самом деле нормальные)
Вы приняли нормальность ошибок, как только вы подобрали регрессию OLS. Должны ли вы предоставить аргументы для этого утверждения, зависит от типа и уровня вашей работы. (часто полезно взглянуть на то, что принято в этой области)
Теперь, если остатки действительно распределены нормально, вы можете погладить себя по спине, поскольку можете использовать его как эмпирическое доказательство ваших предыдущих предположений. :)
источник
Да, это разумно. Остатки ошибки. Вы также можете посмотреть на нормальный график QQ.
источник