Каков полный список обычных предположений для линейной регрессии?

72

Каковы обычные предположения для линейной регрессии?

Они включают в себя:

  1. линейная зависимость между независимой и зависимой переменной
  2. независимые ошибки
  3. нормальное распределение ошибок
  4. гомоскедастичность

Есть ли другие?

Тони
источник
3
Вы можете найти довольно полный список в маленькой книге Уильяма Берри «Понимание предположений регрессии»: books.google.com/books/about/…
3
Хотя респонденты перечислили несколько хороших ресурсов, ответить на этот вопрос в этом формате сложно, и (многие) книги были посвящены исключительно этой теме. Нет кулинарной книги, и не следует указывать потенциальное разнообразие ситуаций, которые могут охватывать линейные регрессии.
Энди W
3
Технически, (обычная) линейная регрессия является моделью вида , . Это простое математическое утверждение охватывает все предположения. Это заставляет меня думать, @Andy W, что вы, возможно, интерпретируете вопрос более широко, возможно, в смысле искусства и практики регрессии. Ваши дальнейшие мысли об этом могут быть полезны здесь. Y iE[Yi]=XiβYi
whuber
2
@ Энди В.И. Я не пыталась предположить, что ваша интерпретация неверна. Ваш комментарий предложил способ мышления по вопросу, который выходит за рамки технических предположений, возможно, указывая на то, что может потребоваться для достоверной интерпретации результатов регрессии. Не было бы необходимости писать трактат в ответ, но даже список некоторых из этих более широких проблем мог бы пролить свет и может расширить сферу и интерес этой темы.
whuber
1
@whuber, если это означает, что средства различны для разных , следовательно, не может быть iid :)i Y iEYi=XiβiYi
mpiktas

Ответы:

78

Ответ сильно зависит от того, как вы определяете, полный и обычный. Предположим, мы напишем модель линейной регрессии следующим образом:

yi=xiβ+ui

где - вектор переменных-предикторов, - интересующий параметр, - переменная ответа, а - помеха. Одной из возможных оценок является оценка наименьших квадратов: xiβyiuiβ

β^=argminβ(yixiβ)2=(xixi)1xiyi.

В настоящее время практически все учебники имеют дело с предположениями, когда эта оценка имеет желательные свойства, такие как непредвзятость, согласованность, эффективность, некоторые свойства распределения и т. Д.β^

Каждое из этих свойств требует определенных допущений, которые не совпадают. Поэтому лучшим вопросом было бы спросить, какие предположения необходимы для требуемых свойств оценки LS.

Свойства, которые я упоминал выше, требуют некоторой вероятностной модели для регрессии. И здесь мы имеем ситуацию, когда разные модели используются в разных прикладных областях.

Простой случай состоит в том, чтобы рассматривать как независимые случайные переменные, причем является случайным. Мне не нравится слово обычное, но мы можем сказать, что это обычный случай в большинстве прикладных областей (насколько я знаю).yixi

Вот список некоторых желательных свойств статистических оценок:

  1. Оценка существует.
  2. Беспристрастность: .Eβ^=β
  3. Согласованность: как ( здесь - размер выборки данных).β^βnn
  4. Эффективность: меньше, чем для альтернативных оценок of .Var(β^)Var(β~)β~β
  5. Возможность аппроксимировать или рассчитать функцию распределения .β^

существование

Свойство существования может показаться странным, но это очень важно. В определении мы инвертируем матрицу β^xixi.

Не гарантируется, что обратная сторона этой матрицы существует для всех возможных вариантов . Итак, мы сразу получаем наше первое предположение:xi

Матрица должна иметь полный ранг, т.е. быть обратимой.xixi

беспристрастность

У нас есть если

Eβ^=(xixi)1(xiEyi)=β,
Eyi=xiβ.

Мы можем назвать это вторым допущением, но, возможно, мы прямо сформулировали его, поскольку это один из естественных способов определения линейных отношений.

Обратите внимание, что для получения объективности нам нужно только, чтобы для всех , а были константами. Независимость собственности не требуется.Eyi=xiβixi

консистенция

Чтобы получить допущения для согласованности, нам нужно более четко указать, что мы подразумеваем под . Для последовательностей случайных величин мы имеем разные способы сходимости: по вероятности, почти наверняка, по распределению и по смыслу момента. Предположим, мы хотим получить сходимость по вероятности. Мы можем использовать либо закон больших чисел, либо непосредственно использовать многомерное неравенство Чебышева (используя тот факт, что ):pEβ^=β

Pr(β^β>ε)Tr(Var(β^))ε2.

(Этот вариант неравенства вытекает непосредственно из применения неравенства Маркова к , отмечая, что .)β^β2Eβ^β2=TrVar(β^)

Поскольку сходимость по вероятности означает, что левый член должен исчезать для любого при , нам нужно, чтобы при . Это вполне разумно, поскольку при большем количестве данных точность, с которой мы оцениваем должна возрасти.ε>0nVar(β^)0nβ

У нас есть

Var(β^)=(xixi)1(ijxixjCov(yi,yj))(xixi)1.

Независимость гарантирует, что , поэтому выражение упрощается до Cov(yi,yj)=0

Var(β^)=(xixi)1(ixixiVar(yi))(xixi)1.

Теперь предположим, что , затем Var(yi)=const

Var(β^)=(xixi)1Var(yi).

Теперь, если мы дополнительно требуем, чтобы был ограничен для каждого , мы немедленно получаем 1nxixin

Var(β)0 as n.

Таким образом, чтобы получить согласованность, мы предположили, что автокорреляции нет ( ), дисперсия постоянна, и не растут слишком сильно. Первое предположение выполняется, если исходит из независимых выборок.Cov(yi,yj)=0Var(yi)xiyi

КПД

Классическим результатом является теорема Гаусса-Маркова . Условия для него - это как раз первые два условия последовательности и условие беспристрастности.

Распределительные свойства

Если нормальные, мы сразу получаем, что нормальный, поскольку это линейная комбинация нормальных случайных величин. Если мы примем предыдущие предположения о независимости, некоррелированности и постоянной дисперсии, мы получим, что где .yiβ^

β^N(β,σ2(xixi)1)
Var(yi)=σ2

Если не являются нормальными, но независимыми, мы можем получить приблизительное распределение благодаря центральной предельной теореме. Для этого мы должны считать , что для некоторой матрицы . Постоянная дисперсия для асимптотической нормальности не требуется, если предположить, что yiβ^

limn1nxixiA
A
limn1nxixiVar(yi)B.

Обратите внимание , что при постоянной дисперсии , имеем . Центральная предельная теорема дает нам следующий результат:yB=σ2A

n(β^β)N(0,A1BA1).

Итак, из этого мы видим, что независимость и постоянная дисперсия для и некоторые допущения для дают нам много полезных свойств для оценки LS .yixiβ^

Дело в том, что эти предположения можно ослабить. Например, мы требовали, чтобы не были случайными переменными. Это предположение неосуществимо в эконометрических приложениях. Если мы позволим быть случайным, мы можем получить аналогичные результаты, если использовать условные ожидания и учитывать случайность . Предположение о независимости также может быть ослаблено. Мы уже продемонстрировали, что иногда необходима только некоррелированность. Даже это может быть дополнительно смягчено, и все еще возможно показать, что оценка LS будет последовательной и асимптотически нормальной. Смотрите, например , книгу Уайта для более подробной информации.xixixi

mpiktas
источник
Комментарий к теореме Гаусса-Маркова. Это только заявляет, что OLS лучше, чем другие оценщики, которые являются линейными функциями данных. Однако многие широко используемые оценки, в частности, максимальное правдоподобие (ML), не являются линейными функциями данных и могут быть намного более эффективными, чем OLS, в условиях теоремы Гаусса-Маркова.
Питер Уэстфолл,
@PeterWestfall Для нормальных гауссовских ошибок MLE - это OLS :) И вы не можете добиться большей эффективности, чем MLE. Я постарался быть легким с математическими деталями в этом посте.
mpiktas
1
Моя точка зрения заключалась в том, что при ненормальных распределениях существует много более эффективных оценок, чем OLS, когда выполняются условия GM. GM по существу бесполезен как утверждение, что OLS "хорош" при ненормальности, потому что лучшие оценки в ненормальных случаях - это нелинейные функции данных.
Питер Уэстфолл
@mpiktas Так что либо мы принимаем как неслучайный, и используем оценщик либо берем как случайный и используем оценщик ? xY^xY|x^
Партибан Раджендран
16

Здесь есть много хороших ответов. Мне приходит в голову, что есть одно предположение, которое, однако, не было высказано (по крайней мере, явно). В частности, регрессионная модель предполагает, что (значения ваших объясняющих / предикторных переменных) фиксированы и известны , и что вся неопределенность в ситуации существует в переменнойКроме того, эта неопределенность считается только ошибкой выборки . XY

Вот два способа думать об этом: если вы строите объяснительную модель (моделирование экспериментальных результатов), вы точно знаете, каковы уровни независимых переменных, потому что вы манипулировали ими / управляли ими. Более того, вы решили, какими будут эти уровни, прежде чем начнете собирать данные. Таким образом, вы понимаете всю неопределенность в отношениях как существующую в ответе. С другой стороны, если вы строите прогностическую модель, это правда, что ситуация отличается, но вы по-прежнему относитесь к предикторам, как если бы они были фиксированными и известными, потому что в будущем, когда вы будете использовать модель для прогнозирования о вероятном значении , у вас будет вектор,yxи модель предназначена для обработки этих значений, как если бы они были правильными. То есть вы будете воспринимать неопределенность как неизвестное значение . y

Эти предположения можно увидеть в уравнении для прототипа регрессионной модели: Модель с неопределенностью (возможно, из-за ошибки измерения) в также может иметь тот же процесс генерирования данных, но модель это будет выглядеть примерно так: где представляет случайную ошибку измерения. (Ситуации, подобные последней, привели к работе над ошибками в моделях переменных ; основной результат заключается в том, что если в есть ошибка измерения , то наивный

yi=β0+β1xi+εi
x
yi=β^0+β^1(xi+ηi)+ε^i,
ηxβ^1будет ослаблен - ближе к 0, чем его истинное значение, и что при наличии ошибки измерения в статистические тесты будут недостаточными, но в противном случае несмещенными.) yβ^

Одним из практических следствий асимметрии, свойственной типичному предположению, является то, что регрессия на отличается от регрессии на . (См. Мой ответ здесь: в чем разница между выполнением линейной регрессии для y с x по сравнению с x с y? Для более подробного обсуждения этого факта.)yxxy

Gung - Восстановить Монику
источник
Что значит "исправлено" | "случайно" на простом языке? И как отличить фиксированные и случайные эффекты (= факторы)? Я думаю, что в моем дизайне есть 1 фиксированный известный фактор с 5 уровнями. Правильно?
Стэн
1
@стан, я узнаю твое замешательство. Терминология в статистике часто сбивает с толку и бесполезна. В этом случае «фиксированный» не совсем совпадает с фиксированным в «фиксированных эффектах и ​​случайных эффектах» (хотя они связаны). Здесь мы не говорим об эффектах - мы говорим о данных , то есть о ваших предикторах / объяснительных переменных. Самый простой способ понять идею исправления ваших данных - подумать о запланированном эксперименте. Прежде чем что-то сделать, когда вы разрабатываете эксперимент, вы решаете, какими будут уровни вашего объяснения, вы не обнаружите их по пути. XX
gung - Восстановить Монику
Без прогнозирующего моделирования, это не совсем так, но мы будем обращаться с нашими данными таким образом в будущем, когда будем использовать модель для прогнозирования. X
gung - Восстановить Монику
Почему у βs и ε есть шляпа в нижнем уравнении, а не в верхнем?
user1205901
2
@ user1205901, верхняя модель - процесс генерирования данных, нижняя - ваша оценка.
gung - Восстановить Монику
8

Допущения классической модели линейной регрессии включают в себя:

  1. Линейный параметр и правильная спецификация модели
  2. Полный ранг матрицы X
  3. Пояснительные переменные должны быть экзогенными
  4. Термины независимых и идентично распространяемых ошибок
  5. Нормальные условия распределенной ошибки в популяции

Хотя ответы здесь уже дают хороший обзор классического допущения OLS, вы можете найти более полное описание допущения классической модели линейной регрессии здесь:

https://economictheoryblog.com/2015/04/01/ols_assumptions/

Кроме того, в статье описываются последствия в случае нарушения определенных предположений.

Тристиан Онари
источник
6

Различные предположения могут быть использованы для обоснования OLS

  • В некоторых ситуациях автор проверяет остатки на нормальность.
    • Но в других ситуациях остатки не являются нормальными, и автор все равно использует OLS!
  • Вы увидите тексты, в которых говорится, что гомоскедастичность является предположением.
    • Но вы видите, что исследователи используют OLS, когда нарушается гомоскедастичность.

Что дает?!

Ответ заключается в том, что несколько иные наборы допущений могут быть использованы для обоснования использования оценки наименьших квадратов (OLS). OLS - это инструмент, похожий на молоток: вы можете использовать молоток на гвоздях, но вы также можете использовать его на колышках, чтобы разбить лед и т.д.

Две широкие категории допущений - это те, которые применяются к малым выборкам, и те, которые основаны на больших выборках, так что можно применить центральную предельную теорему .

1. Небольшие выборочные предположения

Небольшие выборочные предположения, как обсуждалось в Hayashi (2000):

  1. линейность
  2. Строгая экзогенность
  3. Нет мультиколлинеарности
  4. Сферические ошибки (гомоскедастичность)

При (1) - (4) применяется теорема Гаусса-Маркова , и обычная оценка наименьших квадратов является наилучшей линейной несмещенной оценкой.

  1. Нормальность условий ошибок

Дальнейшее допущение нормальных условий ошибки позволяет проверять гипотезы . Если условия ошибки условно нормальны, распределение оценщика OLS также условно нормально.

Другим примечательным моментом является то, что в норме оценщик OLS также является оценщиком максимальной вероятности .

2. Большие выборочные предположения

Эти предположения могут быть изменены / ослаблены, если у нас достаточно большая выборка, чтобы мы могли опираться на закон больших чисел (для непротиворечивости оценки OLS) и центральную предельную теорему (чтобы распределение выборки оценки OLS сходилось к нормальное распределение, и мы можем провести проверку гипотез, поговорить о p-значениях и т. д.).

Хаяси - специалист по макроэкономике, и его большие выборочные предположения сформулированы с учетом контекста временных рядов:

  1. линейность
  2. эргодическая стационарность
  3. предопределенные регрессоры: термины ошибок ортогональны их текущим элементам ошибок.
  4. E[xx] имеет полный ранг
  5. xiϵi - разностная последовательность мартингейла с конечными вторыми моментами.
  6. Конечные 4-ые моменты регрессоров

Вы можете столкнуться с более сильными версиями этих предположений, например, что термины ошибок независимы.

Правильные допущения для большой выборки позволяют получить асимптотически нормальное распределение выборки оценки МНК .

Рекомендации

Хаяси, Фумио, 2000, Эконометрика

Мэтью Ганн
источник
5

Это все о том, что вы хотите сделать со своей моделью. Представьте, что ваши ошибки были положительно искажены / ненормальны. Если вы хотите сделать интервал прогнозирования, вы можете добиться большего успеха, чем использовать t-распределение. Если ваша дисперсия меньше при меньших прогнозируемых значениях, опять-таки, вы сделаете интервал прогнозирования слишком большим.

Лучше понять, почему существуют предположения.

Адам
источник
4

На следующих диаграммах показано, какие предположения необходимы, чтобы получить какие последствия в конечных и асимптотических сценариях.

Конечные предположения OLS

асимптотические допущения МНК

Я думаю, что важно думать не только о том, каковы предположения, но каковы последствия этих предположений. Например, если вы заботитесь только о несмещенных коэффициентах, вам не нужна гомоскедастичность.

DVL
источник
2

Ниже приведены предположения о линейном регрессионном анализе.

Правильная спецификация . Линейная функциональная форма указана правильно.

Строгая экзогенность . Ошибки в регрессии должны иметь условный средний ноль.

Нет мультиколлинеарности . Все регрессоры в X должны быть линейно независимыми.

Гомоскедастичность, которая означает, что погрешность имеет одинаковую дисперсию в каждом наблюдении.

Нет автокорреляции : ошибки не коррелируют между наблюдениями.

Нормальность. Иногда дополнительно предполагается, что ошибки имеют нормальное распределение, обусловленное регрессорами.

Наблюдения Iid : не зависит и имеет то же распределение, что и для всех .(xi,yi)(xj,yj)ij

Для получения дополнительной информации посетите эту страницу .

любовь-статистика
источник
4
Вместо «нет мультиколлинеарности» я бы сказал «нет линейной зависимости». Коллинеарность часто используется в качестве непрерывной, а не категориальной меры. Запрещается только строгая или точная коллинеарность.
Питер Флом - Восстановить Монику
2
Как насчет регрессии временных рядов? Как насчет обобщенных наименьших квадратов? Ваш список выглядит как список заповедей, когда последние 4 предположения могут быть слишком строгими, если мы заботимся только о согласованности и асимптотической нормальности оценки наименьших квадратов.
mpiktas
1
Мультиколлинеарность порождает проблемы интерпретации (связанные с идентификацией некоторых параметров), но она определенно не является стандартным допущением моделей линейной регрессии. Почти мультиколлинеарность - это, прежде всего, вычислительная проблема, но она также вызывает аналогичные проблемы интерпретации.
whuber
@whuber & Peter Flom: Как я читал в книге гуджарати на странице №. 65-75. tiny.cc/cwb2g Он считает «отсутствие мультиколлинеарности» предположением регрессионного анализа.
love-stats
@mpiktas: если вы посетите указанный URL-адрес в ответе, вы найдете предположение о регрессии временных рядов.
love-stats
2

Единого списка допущений не существует, их будет как минимум 2: один для фиксированной и один для случайной матрицы проектирования. Кроме того, вы можете посмотреть на предположения для регрессий временных рядов (см. Стр. 13)

Случай, когда матрица замыкания является фиксированной, может быть наиболее распространенным, и его предположения часто выражаются в виде теоремы Гаусса-Маркова . Фиксированная конструкция означает, что вы действительно контролируете регрессоры. Например, вы проводите эксперимент и можете установить такие параметры, как температура, давление и т. Д. См. Также стр. 13 здесь .X

К сожалению, в таких социальных науках, как экономика, вы редко можете контролировать параметры эксперимента. Обычно вы наблюдаете, что происходит в экономике, записываете показатели среды, а затем регрессируете на них. Оказывается, это совсем другая и более сложная ситуация, называемая случайным дизайном. В этом случае теорема Гаусса-Маркова модифицируется, см. Также п.12 здесь . Вы можете видеть, как условия теперь выражаются в терминах условных вероятностей, что не является безобидным изменением.

В эконометрике предположения имеют имена:

  • линейность
  • строгая экзогенность
  • нет мультиколлинеарности
  • дисперсия сферической ошибки (включает гомоскедастичность и отсутствие корреляции)

Обратите внимание, что я никогда не упоминал нормальность. Это не стандартное предположение. Он часто используется в курсах интрогрессии, потому что облегчает некоторые деривации, но не требуется, чтобы регрессия работала и имела хорошие свойства.

Аксакал
источник
1

Предположение о линейности состоит в том, что модель является линейной по параметрам. Хорошо иметь регрессионную модель с эффектами квадратичного или более высокого порядка, если степенная функция независимой переменной является частью линейной аддитивной модели. Если модель не содержит условий более высокого порядка, когда это необходимо, то на графике остатков будет видно отсутствие соответствия. Однако стандартные регрессионные модели не включают модели, в которых независимая переменная возводится в степень параметра (хотя существуют и другие подходы, которые можно использовать для оценки таких моделей). Такие модели содержат нелинейные параметры.

СтатистикаДок Консалтинг
источник
1

Коэффициент регрессии наименьших квадратов позволяет суммировать тренд первого порядка в любых данных. Ответ @mpiktas - это тщательное рассмотрение условий, при которых метод наименьших квадратов становится все более оптимальным. Я бы хотел пойти другим путем и показать наиболее общий случай, когда работает метод наименьших квадратов. Давайте посмотрим на самую общую формулировку уравнения наименьших квадратов:

E[Y|X]=α+βX

Это просто линейная модель для условного среднего ответа.

Обратите внимание, что я ошибся термином ошибки. Если вы хотите обобщить неопределенность , вы должны обратиться к центральной предельной теореме. Наиболее общий класс оценщиков наименьших квадратов сходится к нормальному, когда выполняется условие Линдеберга : в сложенном виде условие Линдеберга для наименьших квадратов требует, чтобы доля наибольшего квадрата невязки к сумме суммы квадратов невязок была равна 0 как . Если ваш дизайн будет продолжать отбирать все большие и большие остатки, то эксперимент «мертв в воде».βn

Когда условие Линдеберга выполнено, параметр регрессии корректно определен, а оценщик является несмещенной оценкой, которая имеет известное аппроксимирующее распределение. Могут существовать более эффективные оценщики. В других случаях гетероскедастичности или коррелированных данных обычно взвешенная оценка более эффективна . Вот почему я бы никогда не выступил за использование наивных методов, когда есть лучшие. Но они часто нет!ββ^

Adamo
источник
1
Для эконометристов: Стоит отметить, что это условие подразумевает строгую экзогенность, поэтому строгая экзогенность не должна указываться в качестве допущения в условной модели среднего значения. Это автоматически верно, математически. (Говоря здесь теория, а не оценки.)
Питер Уэстфолл,