Я понимаю, что в линейной регрессии ошибки предполагаются нормально распределенными при условии прогнозируемого значения y. Затем мы смотрим на остатки как своего рода прокси для ошибок.
Это часто рекомендуется для создания вывода , как это: . Однако я не понимаю, в чем смысл получения остатка для каждой точки данных и объединения его в один график.
Я понимаю, что у нас вряд ли будет достаточно точек данных, чтобы правильно оценить, есть ли у нас нормальные остатки при каждом прогнозируемом значении y.
Однако не является ли вопрос о том, есть ли у нас нормальные невязки в целом отдельно, и не имеет ли он четкого отношения к допущению модели нормальных невязок при каждом прогнозируемом значении y? Не могли бы мы иметь нормальные остатки при каждом прогнозируемом значении y, в то время как общие остатки были совершенно ненормальными?
источник
Ответы:
Нет - по крайней мере, не в соответствии со стандартным предположением, что дисперсия ошибок постоянна.
Вы можете думать о распределении общих остатков в виде смеси нормальных распределений ( по одному для каждого уровня у ). По предположению, все эти нормальные распределения имеют одинаковое среднее значение (0) и одинаковую дисперсию. Таким образом, распределение этой смеси нормалей само по себе является просто нормальным распределением.Y^
Таким образом, из этого мы можем сформировать небольшой силлогизм. Если отдельные распределения с учетом значений предиктора X являются нормальными (и их отклонения равны), то распределение общих остатков является нормальным. Таким образом, если мы наблюдаем, что распределение всех невязок, по-видимому, не является нормальным, это означает, что распределения с учетом X не являются нормальными с равной дисперсией. Что является нарушением стандартных предположений.
источник
Было сказаночто обычные наименьшие квадраты в y (OLS) оптимальны в классе линейных несмещенных оценок, когда ошибки являются гомоскедастичными и последовательно некоррелированными. Что касается гомоскедастических остатков, дисперсия остатков остается той же самой, независимо от того, где мы будем измерять изменение остаточной величины на оси x. Например, предположим, что погрешность нашего измерения увеличивается пропорционально увеличению значения y. Затем мы могли бы взять логарифм этих значений y перед выполнением регрессии. Если это сделано, качество подгонки возрастает по сравнению с подгонкой модели пропорциональной ошибки без логарифма. В целом, чтобы получить гомоскедастичность, нам, возможно, придется взять обратную величину данных по оси y или x, логарифм (ы), квадратный или квадратный корень или применить экспоненту. Альтернативой этому является использование весовой функции,( у- модель )2Y2 ( у- модель )2
Сказав так много, часто случается, что делая остатки более гомоскедастичными, делает их более нормально распределенными, но часто свойство гомоскедастики является более важным. Последнее будет зависеть от того, почему мы выполняем регрессию. Например, если квадратный корень данных распределен более нормально, чем логарифм, но ошибка пропорционального типа, то t-тестирование логарифма будет полезно для определения разницы между популяциями или измерениями, но для нахождения ожидаемого Значение, которое мы должны использовать квадратный корень данных, потому что только квадратный корень данных является симметричным распределением, для которого среднее, мода и медиана, как ожидается, будут равны.
Более того, часто случается так, что нам не нужен ответ, который дает нам минимальный предиктор ошибок значений по оси Y, и эти регрессии могут быть сильно смещены. Например, иногда мы могли бы хотеть регрессировать для наименьшей ошибки в x. Или иногда мы хотим раскрыть отношения между y и x, что тогда не является обычной проблемой регрессии. Затем мы можем использовать Тейл, т. Е. Срединный наклон, регрессию, в качестве простейшего компромисса между регрессией наименьших ошибок по x и y. Или, если мы знаем, какова дисперсия повторных мер для x и y, мы могли бы использовать регрессию Деминга. Theil регрессия лучше, когда у нас есть большие выбросы, которые делают ужасные вещи с обычными результатами регрессии. И для регрессии срединного уклона не имеет большого значения, распределены ли остатки нормально или нет.
Кстати, нормальность остатков не обязательно дает нам полезную информацию о линейной регрессии.Например, предположим, что мы делаем повторные измерения двух независимых измерений. Поскольку у нас есть независимость, ожидаемая корреляция равна нулю, и наклон линии регрессии может быть любым случайным числом без полезного наклона. Мы повторяем измерения, чтобы установить оценку местоположения, т. Е. Среднее значение (или медиана (распределение Коши или бета-версия с одним пиком) или, как правило, ожидаемое значение популяции), и на основании этого вычислить дисперсию по х и дисперсию в у, который затем может быть использован для регрессии Деминга, или что-то еще. Более того, предположение о том, что суперпозиция, следовательно, будет нормальной при том же значении, если исходная популяция нормальна, не приводит к полезной линейной регрессии. Чтобы нести это дальше, Предположим, что затем я изменю исходные параметры и установлю новое измерение с разными точками генерирования функции Монте-Карло x и y и сопоставлю эти данные с первым прогоном. Тогда остатки являются нормальными в направлении y для каждого значения x, но в направлении x гистограмма будет иметь два пика, что не согласуется с допущениями OLS, и наш наклон и перехват будут смещены, потому что один не имеет равных интервалов данных по оси х. Тем не менее, регрессия сопоставленных данных теперь имеет определенный наклон и перехват, тогда как раньше этого не было. Более того, поскольку мы действительно тестируем только две точки с повторной выборкой, мы не можем проверить линейность. Действительно, коэффициент корреляции не будет надежным измерением по той же причине,
И наоборот, иногда дополнительно предполагается, что ошибки имеют нормальное распределение, обусловленное регрессорами. Это допущение не требуется для достоверности метода OLS, хотя некоторые дополнительные свойства конечной выборки могут быть установлены в случае, если это так (особенно в области проверки гипотез), см. Здесь, Когда тогда OLS в правильной регрессии? Если, например, мы проводим измерения цен на акции при закрытии каждый день в одно и то же время, то нет никакой дисперсии оси t (Think x-axis). Однако время последней сделки (расчета) будет распределено случайным образом, и регрессия для выявления ОТНОШЕНИЙ между переменными должна будет включать обе дисперсии. В этом случае OLS в y будет оценивать только наименьшую ошибку в значении y, что будет плохим выбором для экстраполяции торговой цены для расчета, поскольку само время этого расчета также необходимо прогнозировать. Более того, нормально распределенная ошибка может уступать модели гамма-ценообразования .
Что это имеет значение? Ну, некоторые акции торгуются несколько раз в минуту, а другие не торгуют каждый день или даже каждую неделю, и это может иметь довольно большое численное значение. Так что это зависит от того, какую информацию мы хотим. Если мы хотим спросить, как рынок будет вести себя завтра при закрытии, это вопрос типа OLS, но ответ может быть нелинейным, ненормальным невязкой и требовать функции подбора, имеющей коэффициенты формы, которые согласуются с подгонкой производных (и / или более высокими моментами), чтобы установить правильную кривизну для экстраполяции , (Можно использовать как производные, так и функции, например, используя кубические сплайны, поэтому концепция производного соглашения не должна вызывать удивления, даже если она редко исследуется.) Если мы хотим знать, будем ли мы зарабатывать деньги или нет на определенном складе, тогда мы не используем OLS, поскольку проблема тогда является двумерной.
источник