На этом сайте есть несколько потоков, обсуждающих, как определить, асимптотически ли нормально распределены остатки OLS . В этом превосходном ответе представлен другой способ оценки нормальности остатков с помощью R-кода . Это еще одно обсуждение практической разницы между стандартизированными и наблюдаемыми остатками.
Но допустим, что остатки определенно не распределяются нормально, как в этом примере . Здесь у нас есть несколько тысяч наблюдений, и, очевидно, мы должны отвергнуть предположение о нормально распределенных невязках. Одним из способов решения проблемы является использование некоторой формы надежной оценки, как объяснено в ответе. Однако я не ограничен OLS и на самом деле я хотел бы понять преимущества других glm или нелинейных методологий.
Каков наиболее эффективный способ моделирования данных, нарушающих допущение нормальности остатков OLS? Или, по крайней мере, каким должен быть первый шаг к разработке методологии надежного регрессионного анализа?
источник
Ответы:
Обычная оценка наименьших квадратов все еще является разумной оценкой перед лицом ненормальных ошибок. В частности, теорема Гаусса-Маркова гласит, что обычная оценка наименьших квадратов является наилучшей линейной несмещенной оценкой (СИНИЙ) для коэффициентов регрессии («Наилучший» означает оптимальный с точки зрения минимизации среднеквадратичной ошибки ) до тех пор, пока ошибки
(1) имеет среднее значение ноль
(2) некоррелированы
(3) имеют постоянную дисперсию
Обратите внимание, что здесь нет условия нормальности (или даже любого условия, что ошибки являются IID ).
Условие нормальности вступает в игру, когда вы пытаетесь получить доверительные интервалы и / или . Как упоминает @MichaelChernick (+1, кстати), вы можете использовать надежный вывод, когда ошибки ненормальны, если отклонение от нормальности может быть обработано методом - например, (как мы обсуждали в этой теме) Huber -estimator может обеспечить надежный вывод, когда истинное распределение ошибок представляет собой смесь между нормальным и длиннохвостым распределением (как выглядит ваш пример), но может не быть полезным для других отклонений от нормальности. Одна интересная возможность, на которую ссылается Майкл, - это начальная загрузка, чтобы получить доверительные интервалы для оценок OLS и увидеть, как это сравнивается с выводом на основе Губера.Мp M
Редактировать: Я часто слышу, как говорится, что вы можете положиться на Центральную предельную теорему, чтобы справиться с ненормальными ошибками - это не всегда верно (я не просто говорю о контрпримерах, где теорема не выполняется). В примере с реальными данными, на который ссылается OP, у нас большой размер выборки, но мы можем видеть свидетельство распределения длиннохвостых ошибок - в ситуациях, когда у вас есть ошибки длиннохвостого типа, вы не всегда можете полагаться на Центральную предельную теорему, чтобы дать вы примерно объективный вывод для реалистичных конечных размеров выборки. Например, если ошибки следуют -распределение с степенями свободы (которая не является явно более2,01t 2.01 с длинными хвостами, чем ошибки, наблюдаемые в данных ОП), оценки коэффициентов асимптотически нормально распределены, но для «включения» требуется гораздо больше времени, чем для других распределений с короткими хвостами.
Ниже я демонстрирую грубое моделирование того,yi=1+2xi+εi εi∼t2.01 β^1 n=4000
R
что когда , где , распределение выборки все еще довольно длинный хвост, даже если размер выборки :ε я ~ т 2,01 β 1 п = 4000источник
Я думаю, что вы хотите посмотреть на все свойства остатков.
Если это всего 1 и это происходит из-за тяжелых хвостов или асимметрии из-за одного тяжелого хвоста, устойчивая регрессия может быть хорошим подходом или, возможно, преобразованием в нормальное состояние. Если это непостоянная дисперсия, попробуйте преобразование, стабилизирующее дисперсию, или попытайтесь смоделировать функцию дисперсии. Если это всего лишь 3, это предполагает другую форму модели, включающую этот ковариат. Какая бы проблема ни возникала при загрузке векторов или остатков, это всегда вариант.
источник
rms
пакете R. Но, как вы предложили, поиск преобразования, улучшающего стабильность отклонений и иногда улучшающего нормальность остатков, часто имеет несколько преимуществ, даже если мы загружаемся. Оценки наименьших квадратов с использованием «неправильного» преобразования могут быть очень неэффективными и приводить к большим средним абсолютным и средним абсолютным ошибкам в прогнозах. Мне также нравится использовать полупараметрические регрессионные модели.Мой опыт полностью соответствует Майклу Чернику. Применение преобразования данных не только иногда делает ошибку моделирования нормально распределенной, но и исправляет гетероскедастичность.
Извините, но предлагать иное, например, собирать безумное количество данных или использовать менее эффективные методы регрессии, на мой взгляд, вводить в заблуждение эту науку / искусство ошибочно.
источник
Макрос (только выше) указал правильный ответ. Просто некоторая точность, потому что у меня был тот же вопрос
Условие нормальности остатков полезно, когда остатки также гомоскедастичны. В результате OLS имеет наименьшую дисперсию между всеми оценщиками (линейное ИЛИ нелинейное).
Расширенные допущения OLS:
если 1-5 проверено, то OLS имеет наименьшую дисперсию между всеми оценщиками (линейное ИЛИ нелинейное) .
если проверено только 1-4, то по Гауссу-Маркову OLS является наилучшей линейной (только!) оценкой (СИНИЙ).
Источник: Сток и Уотсон, эконометрика + мой курс (EPFL, эконометрика)
источник
Для ненормальных условий иногда прибегают к устойчивой регрессии , особенно используя ссылки на методы .
Чтобы представить контекст для ненормальности, это может помочь рассмотреть предположения для линейной регрессии OLS , которые:
Статистическая связь между членами ошибки и регрессорами играет важную роль в определении того, обладает ли процедура оценки желаемыми свойствами выборки, такими как беспристрастность и согласованность.
Расположение или распределение вероятностей предикторных переменных x оказывает большое влияние на точность оценок β. Выборка и планирование экспериментов - это высокоразвитые подполя статистики, которые обеспечивают руководство для сбора данных таким образом, чтобы получить точную оценку β.
Поскольку этот ответ показывает, моделируются Student's- распределен оси Оу ошибок от линии приводит к МНК линии регрессии с доверительными интервалами для наклона и перехвата , что увеличение размера как степени свободы ( ) снижение. Для Стьюдент- является распределением Коши, и доверительные интервалы для наклона становятся .t y df df=1 t (−∞,+∞)
Произвольно вызывать распределение Коши по отношению к невязкам в том смысле, что, когда генерирующие ошибки распределены по Коши, остатки OLS из паразитной линии через данные будут еще менее надежными, то есть вход мусора - выход мусора. В этих случаях можно использовать регрессию Тейл-Сена . Theil-Sen, безусловно, более устойчив, чем OLS, для ненормальных остатков, например, распределенная ошибка Коши не приведет к ухудшению доверительных интервалов, и в отличие от OLS также является двумерной регрессией, однако в двумерном случае она все еще смещена. Регрессия по пассивному Баблоку может быть более двумерной и беспристрастной, но не относится к отрицательным наклонам регрессии. Это наиболее часто используется для сравнения методов исследования. Следует упомянуть регрессию Демингаздесь, в отличие от регрессий Тейл-Сена и Пассинга-Баблока, это реальное решение двумерной проблемы, но ей не хватает устойчивости этих других регрессий. Надежность может быть увеличена путем усечения данных, чтобы включить более центральные значения, например, консенсус случайной выборки (RANSAC) является итеративным методом для оценки параметров математической модели из набора наблюдаемых данных, который содержит выбросы.
Что же тогда является двумерной регрессией? Отсутствие тестирования на двумерный характер проблем является наиболее частой причиной разбавления регрессии МНК и было приятно представлено в других местах на этом сайте. Концепция смещения МНК в этом контексте не очень хорошо известна, см., Например, Frost и Thompson, как представлено Longford et al. (2001), который отсылает читателя к другим методам, расширяя регрессионную модель, чтобы признать изменчивость переменной , так что смещения не возникает . Другими словами, двумерная регрессия иногда не может быть проигнорирована, когда оба - иx 1 x y x y y 2 x y x y = f ( x )1 x y -значения распределяются случайным образом. Потребность в двумерной регрессии может быть проверена путем подгонки линии регрессии OLS к остаткам от регрессии OLS данных. Затем, если остатки OLS имеют ненулевой наклон, проблема является двумерной, а регрессия данных OLS будет иметь слишком малую величину наклона, а перехват, который будет слишком большим, чтобы представлять функциональные отношения между и . В этих случаях линейная оценка значений с наименьшей ошибкой действительно все равно будет получена из регрессии OLS, а ее значение R будет максимально возможным, но линия регрессии OLS не будет представлять фактическую линейную функцию, которая связана с иx y y 2 x y случайных величин. В качестве встречного примера, когда, как это происходит среди других проблем во временном ряду с равноотстоящими значениями , OLS необработанных данных не всегда неуместна, она может представлять лучшую линию , но все еще подвержена При преобразовании переменных, например, для данных подсчета, можно взять квадратный корень из отсчетов, чтобы преобразовать ошибки для распределенной ошибки Пуассона в более нормальные условия, и все же следует проверить ненулевой наклон остатков. x y=f(x)
источник