Регресс: почему тест нормальность общих остатков, а остатки обусловливающие

10

Я понимаю, что в линейной регрессии ошибки предполагаются нормально распределенными при условии прогнозируемого значения y. Затем мы смотрим на остатки как своего рода прокси для ошибок.

Это часто рекомендуется для создания вывода , как это: введите описание изображения здесь. Однако я не понимаю, в чем смысл получения остатка для каждой точки данных и объединения его в один график.

Я понимаю, что у нас вряд ли будет достаточно точек данных, чтобы правильно оценить, есть ли у нас нормальные остатки при каждом прогнозируемом значении y.

Однако не является ли вопрос о том, есть ли у нас нормальные невязки в целом отдельно, и не имеет ли он четкого отношения к допущению модели нормальных невязок при каждом прогнозируемом значении y? Не могли бы мы иметь нормальные остатки при каждом прогнозируемом значении y, в то время как общие остатки были совершенно ненормальными?

user1205901 - Восстановить Монику
источник
1
В этом может быть некоторая заслуга - возможно, здесь может помочь самозагрузка (чтобы получить репликацию остатков)
вероятностная
2
Не могли бы вы дать ссылку на то, что в линейной регрессии ошибки предполагаются нормально распределенными, в зависимости от прогнозируемого значения y (если оно есть)?
Ричард Харди
Когда я отправил вопрос, я не имел в виду какой-либо конкретный источник, но как насчет «предположение о том, что переменная ответа обычно распределяется вокруг линии регрессии (которая является оценкой условного среднего) с постоянной дисперсией» от сюда . Буду рад дальнейшим отзывам, если я ошибаюсь по этому поводу.
user1205901 - Восстановить Монику

Ответы:

17

Не могли бы мы иметь нормальные остатки при каждом прогнозируемом значении y, в то время как общие остатки были совершенно ненормальными?

Нет - по крайней мере, не в соответствии со стандартным предположением, что дисперсия ошибок постоянна.

Вы можете думать о распределении общих остатков в виде смеси нормальных распределений ( по одному для каждого уровня у ). По предположению, все эти нормальные распределения имеют одинаковое среднее значение (0) и одинаковую дисперсию. Таким образом, распределение этой смеси нормалей само по себе является просто нормальным распределением.Y^

Таким образом, из этого мы можем сформировать небольшой силлогизм. Если отдельные распределения с учетом значений предиктора X являются нормальными (и их отклонения равны), то распределение общих остатков является нормальным. Таким образом, если мы наблюдаем, что распределение всех невязок, по-видимому, не является нормальным, это означает, что распределения с учетом X не являются нормальными с равной дисперсией. Что является нарушением стандартных предположений.

Джейк Уэстфолл
источник
1
п(ε)знак равноп(ε|Икс)п(Икс)dИксп(ε|Икс)п(ε)п(Икс)Y^знак равноβ0+β1ИксY^Икс
Уместно ли сказать, что ненормальные маргиналы позволяют нам «отклонять» ненормальные условные выражения, но что нормальные маргиналы не позволяют нам «принимать» нормальные условные выражения?
shadowtalker
6
п(ε|Икс)знак равноп(ε)п(ε)N(0,σ2)N(0,σ2)
Билл
1
ε | Икс~N(0,σ2)ε~N(0,σ2)
@ssdecontrol Из ответа: « Если отдельные распределения с учетом значений предиктора X нормальны (и их дисперсии равны), то распределение общих остатков нормальное. » Не уверен, насколько яснее я мог бы быть?
Джейк Уэстфолл,
3

Было сказаночто обычные наименьшие квадраты в y (OLS) оптимальны в классе линейных несмещенных оценок, когда ошибки являются гомоскедастичными и последовательно некоррелированными. Что касается гомоскедастических остатков, дисперсия остатков остается той же самой, независимо от того, где мы будем измерять изменение остаточной величины на оси x. Например, предположим, что погрешность нашего измерения увеличивается пропорционально увеличению значения y. Затем мы могли бы взять логарифм этих значений y перед выполнением регрессии. Если это сделано, качество подгонки возрастает по сравнению с подгонкой модели пропорциональной ошибки без логарифма. В целом, чтобы получить гомоскедастичность, нам, возможно, придется взять обратную величину данных по оси y или x, логарифм (ы), квадратный или квадратный корень или применить экспоненту. Альтернативой этому является использование весовой функции,(Y-модель)2Y2(Y-модель)2

Сказав так много, часто случается, что делая остатки более гомоскедастичными, делает их более нормально распределенными, но часто свойство гомоскедастики является более важным. Последнее будет зависеть от того, почему мы выполняем регрессию. Например, если квадратный корень данных распределен более нормально, чем логарифм, но ошибка пропорционального типа, то t-тестирование логарифма будет полезно для определения разницы между популяциями или измерениями, но для нахождения ожидаемого Значение, которое мы должны использовать квадратный корень данных, потому что только квадратный корень данных является симметричным распределением, для которого среднее, мода и медиана, как ожидается, будут равны.

Более того, часто случается так, что нам не нужен ответ, который дает нам минимальный предиктор ошибок значений по оси Y, и эти регрессии могут быть сильно смещены. Например, иногда мы могли бы хотеть регрессировать для наименьшей ошибки в x. Или иногда мы хотим раскрыть отношения между y и x, что тогда не является обычной проблемой регрессии. Затем мы можем использовать Тейл, т. Е. Срединный наклон, регрессию, в качестве простейшего компромисса между регрессией наименьших ошибок по x и y. Или, если мы знаем, какова дисперсия повторных мер для x и y, мы могли бы использовать регрессию Деминга. Theil регрессия лучше, когда у нас есть большие выбросы, которые делают ужасные вещи с обычными результатами регрессии. И для регрессии срединного уклона не имеет большого значения, распределены ли остатки нормально или нет.

Кстати, нормальность остатков не обязательно дает нам полезную информацию о линейной регрессии.Например, предположим, что мы делаем повторные измерения двух независимых измерений. Поскольку у нас есть независимость, ожидаемая корреляция равна нулю, и наклон линии регрессии может быть любым случайным числом без полезного наклона. Мы повторяем измерения, чтобы установить оценку местоположения, т. Е. Среднее значение (или медиана (распределение Коши или бета-версия с одним пиком) или, как правило, ожидаемое значение популяции), и на основании этого вычислить дисперсию по х и дисперсию в у, который затем может быть использован для регрессии Деминга, или что-то еще. Более того, предположение о том, что суперпозиция, следовательно, будет нормальной при том же значении, если исходная популяция нормальна, не приводит к полезной линейной регрессии. Чтобы нести это дальше, Предположим, что затем я изменю исходные параметры и установлю новое измерение с разными точками генерирования функции Монте-Карло x и y и сопоставлю эти данные с первым прогоном. Тогда остатки являются нормальными в направлении y для каждого значения x, но в направлении x гистограмма будет иметь два пика, что не согласуется с допущениями OLS, и наш наклон и перехват будут смещены, потому что один не имеет равных интервалов данных по оси х. Тем не менее, регрессия сопоставленных данных теперь имеет определенный наклон и перехват, тогда как раньше этого не было. Более того, поскольку мы действительно тестируем только две точки с повторной выборкой, мы не можем проверить линейность. Действительно, коэффициент корреляции не будет надежным измерением по той же причине,

И наоборот, иногда дополнительно предполагается, что ошибки имеют нормальное распределение, обусловленное регрессорами. Это допущение не требуется для достоверности метода OLS, хотя некоторые дополнительные свойства конечной выборки могут быть установлены в случае, если это так (особенно в области проверки гипотез), см. Здесь, Когда тогда OLS в правильной регрессии? Если, например, мы проводим измерения цен на акции при закрытии каждый день в одно и то же время, то нет никакой дисперсии оси t (Think x-axis). Однако время последней сделки (расчета) будет распределено случайным образом, и регрессия для выявления ОТНОШЕНИЙ между переменными должна будет включать обе дисперсии. В этом случае OLS в y будет оценивать только наименьшую ошибку в значении y, что будет плохим выбором для экстраполяции торговой цены для расчета, поскольку само время этого расчета также необходимо прогнозировать. Более того, нормально распределенная ошибка может уступать модели гамма-ценообразования .

Что это имеет значение? Ну, некоторые акции торгуются несколько раз в минуту, а другие не торгуют каждый день или даже каждую неделю, и это может иметь довольно большое численное значение. Так что это зависит от того, какую информацию мы хотим. Если мы хотим спросить, как рынок будет вести себя завтра при закрытии, это вопрос типа OLS, но ответ может быть нелинейным, ненормальным невязкой и требовать функции подбора, имеющей коэффициенты формы, которые согласуются с подгонкой производных (и / или более высокими моментами), чтобы установить правильную кривизну для экстраполяции , (Можно использовать как производные, так и функции, например, используя кубические сплайны, поэтому концепция производного соглашения не должна вызывать удивления, даже если она редко исследуется.) Если мы хотим знать, будем ли мы зарабатывать деньги или нет на определенном складе, тогда мы не используем OLS, поскольку проблема тогда является двумерной.

деревенщина
источник
1
Вы сказали бы, что нормальность достаточна, но не необходима для правильного вывода? Почему бы просто не проверить конкретно гетероскедастичность? Разумеется, предельное распределение остаточных величин (например, с большими хвостами) не обязательно означает, что предположение условной нормальности неверно, не так ли? Тем не менее, остатки с тяжелыми хвостами по своей конструкции не пройдут проверку нормальности остатков.
Shadowtalker
Для t-тестирования гомоскедастичность часто более важна. Выбросы составляют 1.359 SD >> IQR, следовательно, снижают мощность t-тестирования. Затем попробуйте либо репараметризацию, либо тест Уилкоксона, который в большинстве случаев работает (возможно, не при r> 0,9999), независимо от типа распределения или степени гетероскедастичности. На самом деле, если кто-то тестирует несколько похожих параметров, то либо Уилкоксон, либо t-тестирование будут работать лучше, чтобы отсортировать низкие и высокие вероятности, поэтому сами данные часто объявляют, что является более полезным.
Карл
Сделайте это 1.349 SD >> IQR. 1.349 - это число SD, которое нормальное распределение имеет для одного межквартильного диапазона (IQR). Некоторые распределения, такие как распределение Коши или t ученика с двумя степенями свободы, не имеют SD, выбросы убивают это, но у них есть IQR, а затем один использует критерий Уилкоксона или другой непараметрический тест в качестве тестов местоположения.
Карл
После дальнейших размышлений (см. Новый материал в ответе) нормальность остатков оси Y приятно иметь, но недостаточна.
Карл
Распределения с тяжелыми хвостами делают ужасные вещи с уравнениями регрессии. Например, если каждый проверяет все возможные уклоны в наборе данных, он обычно получает распределение уклонов Коши, AKA Student's t с одной степенью свободы. Для распределения Коши нет моментов. Таким образом, можно вычислить среднее и стандартное отклонение, и чем больше будет данных, тем более ошибочным будет среднее значение и стандартное отклонение. Ожидаемое значение распределения Коши является медианой, и для вычисления среднего значения необходимо провести цензуру экстремальных значений.
Карл