Допущения множественной регрессии: чем предположение о нормальности отличается от предположения о постоянной дисперсии?

20

Я прочитал, что это условия для использования модели множественной регрессии:

  1. остатки модели почти нормальные,
  2. изменчивость остатков почти постоянна
  3. остатки независимы, и
  4. каждая переменная линейно связана с результатом.

Чем отличаются 1 и 2?

Вы можете увидеть один здесь прямо:

введите описание изображения здесь

Таким образом, вышеприведенный график говорит, что остаток, составляющий 2 стандартных отклонения, находится на расстоянии 10 от оси Y. Это означает, что остатки следуют нормальному распределению. Вы не можете сделать вывод 2 из этого? Что изменчивость остатков почти постоянна?

Jwan622
источник
7
Я бы сказал, что порядок тех неправильный. В порядке важности я бы сказал 4, 3, 2, 1. Таким образом, каждое дополнительное допущение позволяет использовать модель для решения более широкого круга задач, в отличие от порядка в вашем вопросе, где наиболее ограничительное допущение это первое.
Мэтью Друри
2
Эти предположения необходимы для логической статистики. Не делается никаких предположений о минимизации суммы квадратов ошибок.
Дэвид Лейн
1
Я полагаю, что имел в виду 1, 3, 2, 4. 1 должно быть выполнено, по крайней мере, приблизительно, чтобы модель была полезна для многих, 3 требуется, чтобы модель была последовательной, т.е. сходилась к чему-то стабильному, когда вы получаете больше данных Требуется 2, чтобы оценка была эффективной, то есть нет другого лучшего способа использовать данные для оценки той же линии, а 4 требуется, по крайней мере приблизительно, для проверки гипотезы на оцененных параметрах.
Мэтью Друри
3
Обязательная ссылка на блог-пост А. Гельмана « Каковы основные предположения о линейной регрессии?» ,
usεr11852 говорит восстановить Monic
2
Пожалуйста, дайте источник для вашей диаграммы, если это не ваша собственная работа.
Ник Кокс

Ответы:

44

1. Нормальное распределение остатков :

Условие нормальности вступает в игру, когда вы пытаетесь получить доверительные интервалы и / или значения p.

ε|XN(0,σ2In) не является условием Гаусса-Маркова .


введите описание изображения здесь

Этот график пытается проиллюстрировать распределение точек в популяции синим цветом (с линией регрессии населения в виде сплошной голубой линии), наложенной на набор данных образца большими желтыми точками (с оценочной линией регрессии, нанесенной в виде пунктирной желтой линии). Очевидно, это только для концептуального потребления, так как для каждого значения будут точки бесконечности - так что это графическая иконографическая дискретизация концепции регрессии как непрерывного распределения значений вокруг среднего значения (соответствует прогнозируемому значению). «независимой» переменной) при каждом заданном значении регрессора или объясняющей переменной.X=x

Если мы запустим диагностические R-графики на смоделированных данных о населении, мы получим ...

введите описание изображения здесь

Дисперсия остатков постоянна по всем значениямX.

Типичный сюжет будет:

введите описание изображения здесь


Концептуально, введение нескольких регрессоров или объясняющих переменных не меняет идею. Я считаю, что практическое руководство по пакету swirl()чрезвычайно полезно для понимания того, как множественная регрессия на самом деле представляет собой процесс регрессии зависимых переменных друг против друга, продвигая остаточное, необъяснимое изменение в модели; или, проще говоря, векторная форма простой линейной регрессии :

Общий метод состоит в том, чтобы выбрать один регрессор и заменить все другие переменные остатками их регрессий против этого.


2. Изменчивость остатков практически постоянна (гомоскедастичность) :

E[εi2|X]=σ2

Проблема с нарушением этого условия является:

Гетероскедастичность имеет серьезные последствия для оценки МНК. Хотя оценщик OLS остается беспристрастным, оценочная SE неверна. Из-за этого нельзя полагаться на доверительные интервалы и проверки гипотез. Кроме того, оценщик OLS больше не СИНИЙ.


введите описание изображения здесь

На этом графике дисперсия увеличивается со значениями регрессора (объясняющей переменной), а не остается постоянной. В этом случае остатки обычно распределяются, но дисперсия этого нормального распределения изменяется (увеличивается) с пояснительной переменной.

Обратите внимание, что «истинная» (популяционная) регрессионная линия не изменяется по отношению к регрессионной линии популяции при гомоскедастичности на первом графике (сплошной темно-синий), но интуитивно ясно, что оценки будут более неопределенными.

Диагностические графики на наборе данных ...

введите описание изображения здесь

которые соответствуют распределению с «тяжелыми хвостами» , что имеет смысл в том смысле, что мы должны были объединить все «бок о бок» вертикальные гауссовские графики в один, который бы сохранял форму колокола, но имел очень длинные хвосты.


@Glen_b "... полное освещение различий между ними также будет считать гомоскедастичным, но не нормальным".

введите описание изображения здесь

Остатки сильно искажены, и дисперсия увеличивается со значениями объясняющей переменной.

Это были бы диагностические участки ...

введите описание изображения здесь

соответствует отмеченному правому перекосу.

Чтобы замкнуть петлю, мы также увидели бы перекос в гомоскедастической модели с негауссовым распределением ошибок:

введите описание изображения здесь

с диагностическими участками как ...

введите описание изображения здесь

Антони Пареллада
источник
2
Большое спасибо. Я чувствовал, что необходимо преодолеть грубую дискретизацию населения, используемого в качестве инструмента визуализации. Я могу опубликовать код, но я колеблюсь, потому что была некоторая степень творческой математики :-)
Антони Пареллада
3
Иллюстрация различия между нормальными ошибками и гомоскедастическими ошибками, показывающая график, удовлетворяющий обоим, и затем показывающий нормальный, но не гомоскедастичный, превосходна. Я предполагаю, что полное освещение различий между этими двумя также будет считать гомоскедастичным, но не нормальным. [Я не предлагаю вам добавить такую ​​иллюстрацию, но это полезная третья рука, о которой люди должны помнить при рассмотрении предположений.]
Glen_b
7

Это не вина ОП, но я начинаю уставать читать такую ​​дезинформацию.

Я прочитал, что это условия для использования модели множественной регрессии:

the residuals of the model are nearly normal,
the variability of the residuals is nearly constant
the residuals are independent, and
each variable is linearly related to the outcome.

«Модель множественной регрессии» - это просто метка, заявляющая, что одна переменная может быть выражена как функция других переменных.

Ни истинный член ошибки, ни остатки модели не должны быть чем-то конкретным - если остатки выглядят нормально, это хорошо для последующего статистического вывода.

Изменчивость (дисперсия) члена ошибки не обязательно должна быть почти постоянной - если это не так, у нас есть модель с гетероскедастичностью, которая в настоящее время довольно легко обрабатывается.

Остатки не являются независимыми в любом случае, так как каждый является функцией всей выборки. В настоящие условия ошибки не должны быть независимыми -если они не у нас есть модель с автокорреляции, которые, хотя и более сложным , чем гетероскедастичности, могут быть решены до такой степени.

Каждая переменная не должна быть линейно связана с результатом. На самом деле, различие между «линейной» и «нелинейной» регрессией не имеет ничего общего с отношением между переменными - но с тем, как неизвестные коэффициенты входят в отношение.

Что можно сказать, так это то, что если первые три верны, а четвертый правильно задан, то мы получаем «Классическую модель нормальной линейной регрессии», которая является лишь одним (хотя и исторически первым) вариантом моделей множественной регрессии.

Алекос Пападопулос
источник
3
XβXβX
2
И в этом вопросе отсутствует абсолютно фундаментальное предположение о том, что условное ожидание ошибочных членов равно нулю!
Мэтью Ганн
1
@MatthewGunn Ну, ... это открывает очень широкую дискуссию о том, что мы делаем с этой моделью: если мы возьмем «детерминистический / инженерный» взгляд, нам нужно это предположение, чтобы убедиться, что специфика действительно является детерминистской. Если мы хотим оценить функцию условного ожидания по отношению к конкретным регрессорам , то условие автоматически выполняется (или, по крайней мере, его более слабая форма, ортогональность).
Алекос Пападопулос
1
@AlecosPapadopoulos Да, в некотором смысле, обычные наименьшие квадраты всегда дают оценку чего-то! Но это может быть не то, что вы хотите. Если OP просто хочет линейную функцию условного ожидания относительно конкретных регрессоров, я согласен, что условие автоматически принимается. Но если ОП пытается оценить какой-либо параметр, обоснование условия ортогональности является критическим!
Мэтью Ганн
@ MatthewGunn Действительно, это, безусловно, так.
Алекос Пападопулос
3

У Антони Пареллада был отличный ответ с хорошей графической иллюстрацией.

Я просто хочу добавить один комментарий, чтобы обобщить разницу между двумя утверждениями

  1. остатки модели почти нормальные

  2. изменчивость остатков почти постоянна

  • Утверждение 1 дает «форму» остатка «колоколообразная кривая» .
  • Заявление 2 измельчает распространение в «форме» (постоянный), в сюжете Антони Parellada в 3. Есть 3 формы колокол кривые, но они отличаются распространение.
Haitao Du
источник
1

Не существует единственного уникального набора регрессионных допущений, но есть несколько вариантов. Некоторые из этих наборов допущений являются более строгими, т.е. более узкими, чем другие. Кроме того, в большинстве случаев вам это не нужно, а во многих случаях вы не можете предположить, что распределение нормальное.

Предположения, которые вы цитировали, являются более строгими, чем большинство, но они сформулированы на излишне свободном языке. Например, что именно почти ? Кроме того , это не то остатки , на которых мы налагаем предположения, это ошибка . Остатки являются оценками ошибок, которые не наблюдаемы. Это говорит мне, что вы цитируете из плохого источника. Выброси это.

Краткий ответ на ваш вопрос состоит в том, что если вы рассмотрите какое-либо распределение, например распределение Student t, за ваши ошибки (я собираюсь использовать правильный термин в своем ответе), то вы сможете увидеть, как ошибки могут иметь «почти постоянное» изменение без учета нормального распределения и того, что наличие «почти постоянной» дисперсии не требует нормального распределения. Другими словами, нет, вы не можете придумать одно предположение из другого без дополнительного требования.

yi=Xiβ+εiεiN(0,σ2)
  1. N(.)
  2. σεi
  3. NX
  4. y=Xβ

Таким образом, когда мы объединяем все предположения таким образом в одно или два уравнения, может показаться, что все они зависят друг от друга, что не соответствует действительности. Я собираюсь продемонстрировать это дальше.

Пример 1

yi=Xiβ+εiεitν
ν

Пример 2

yi=Xiβ+εiεiN(0,σ2i)
i
Аксакал
источник
1

Я попытался добавить новое измерение в обсуждение и сделать его более общим. Пожалуйста, извините, если был слишком элементарен.

Модель регрессии является формальным средством выражения двух основных компонентов статистического отношения:

  1. YX
  2. Разброс точек вокруг кривой статистической связи.

Y

Постулируя это:

  1. YX

  2. X

Y

YX

YXYX

Источник: Прикладные линейные статистические модели, КННЛ.

YX

Yi=β0 +β1Xi+ϵ

YiXi

β0β1 параметры

ϵN(O,σ2)

i

E(Y|X)β0β1σ2β0β1σ2

the residuals of the model are nearly normal,
the variability of the residuals is nearly constant
the residuals are independent, and
each variable is linearly related to the outcome.

Чем отличаются 1 и 2?

Подойдя к вопросу

Первое и второе предположения, изложенные вами, являются двумя частями одного и того же предположения о нормальности с нулевым средним и постоянной дисперсией. Я думаю, что вопрос должен быть сформулирован как последствия двух допущений для нормальной модели регрессии ошибок, а не как разница между двумя допущениями. Я говорю это потому, что похоже на сравнение яблок с апельсинами, потому что вы пытаетесь найти разницу между предположениями о распределении разброса точек и предположениями о его изменчивости. Изменчивость является свойством распределения. Поэтому я постараюсь ответить на более актуальный вопрос о последствиях двух допущений.

В предположении нормальности оценки максимального правдоподобия (MLE) такие же, как оценки наименьших квадратов, а MLE обладают свойством UMVUE, что означает, что они имеют минимальную дисперсию среди всех оценок.

β0β1t

наивный
источник
1
Это отличный отчет о регрессии. Но как он отвечает на конкретный вопрос в этой теме?
whuber