Нормальность зависимой переменной = нормальность остатков?

34

Эта проблема, кажется, постоянно поднимает свою уродливую голову, и я пытаюсь обезглавить ее для моего собственного понимания статистики (и здравомыслия!).

Допущения общих линейных моделей (t-критерий, ANOVA, регрессия и т. Д.) Включают «допущение нормальности», но я обнаружил, что это редко описывается четко.

Я часто сталкиваюсь с учебниками / руководствами по статистике и т. Д., Просто утверждая, что «допущение нормальности» применимо к каждой группе (т. Е. Категориальным переменным X), и нам следует изучить отклонения от нормальности для каждой группы .

Вопросы :

  1. относится ли предположение к значениям Y или остаткам Y?

  2. для конкретной группы возможно ли иметь строго ненормальное распределение значений Y (например, искаженное), НО приблизительно (или, по крайней мере, более нормальное) распределение остатков Y?

    Другие источники описывают, что предположение относится к остаткам модели (в случаях, когда есть группы, например, t-тесты / ANOVA), и мы должны исследовать отклонения от нормальности этих остатков (т. Е. Только один график / тест QQ для бег).

  3. подразумевает ли нормальность невязок для модели нормальность невязок для групп ? Другими словами, должны ли мы просто исследовать остатки модели (в отличие от инструкций во многих текстах)?

    Чтобы поместить это в контекст, рассмотрим этот гипотетический пример:

    • Я хочу сравнить высоту дерева (Y) между двумя популяциями (X).
    • В одной популяции распределение Y сильно искажено (то есть большинство деревьев короткие, очень немногие высокие), в то время как другая практически нормальная
    • Рост в целом выше в нормально распределенной популяции (предполагая, что может быть «реальная» разница).
    • Преобразование данных существенно не улучшает распределение первой популяции.
  4. Во-первых, допустимо ли сравнивать группы с учетом радикально разных распределений по высоте?

  5. Как мне приблизиться к «предположению о нормальности» здесь? Напомним, высота в одной популяции обычно не распределена. Проверяю ли я остатки для обеих популяций отдельно ИЛИ остатки для модели (t-критерий)?


Пожалуйста, обращайтесь к вопросам по номерам в ответах, опыт показывает, что люди легко теряются или отвлекаются (особенно я!). Имейте в виду, я не статистика; хотя у меня есть достаточно концептуальное (то есть, не техническое!) понимание статистики.

PS, я искал архивы и прочитал следующие темы, которые не укрепили мое понимание:

DeanP
источник
2
« Вопрос 1) относится ли предположение к значениям Y или остаткам Y? » - Строго говоря, ни то , ни другое , хотя вы проверяете второе . То, что считается нормальным, это либо ненаблюдаемые ошибки , либо, что эквивалентно, условное распределение Y в каждой комбинации предикторов. Безусловное распределение Y не считается нормальным.
Glen_b
1
+1 Спасибо за усилия по организации и консолидации некоторых (многих) потоков, в которых возникает эта проблема; это определенно FAQ.
whuber
Я просто хотел бы поблагодарить вас за этот вопрос. И для предмета, к которому это относится, и как хорошо организовано и связано это. Я знаю, что вы задавали это очень давно, но это очень хороший вопрос!
хмммм

Ответы:

14

Один момент, который может помочь вашему пониманию:

Если нормально распределен, а a и b являются константами, то y = x - axab также нормально распределен (но возможно с другим средним значением и дисперсией).y=xab

Поскольку остатки представляют собой только значения y минус оценочное среднее значение (стандартизованные остатки также делятся на оценку стандартной ошибки), то, если значения y обычно распределены, то и остатки также и наоборот. Поэтому, когда мы говорим о теории или предположениях, не имеет значения, о чем мы говорим, потому что одно подразумевает другое.

Так что для вопросов это приводит к:

  1. да, и то и другое
  2. Нет, (однако отдельные значения y будут получены из нормалей различными способами, которые могут заставить их выглядеть ненормальными, если они сгруппированы вместе)
  3. Нормальность остатков означает нормальность групп, однако в некоторых случаях может быть полезно изучить остатки или значения y по группам (объединение может скрыть ненормальность, которая очевидна в группе) или рассмотреть все вместе в других случаях (недостаточно наблюдений По группе определиться, но все вместе можно сказать).
  4. Это зависит от того, что вы подразумеваете под сравнением, насколько велик ваш размер выборки и ваши чувства к «Приблизительному». Предположение о нормальности требуется только для тестов / интервалов по результатам, вы можете подогнать модель и описать точечные оценки, независимо от того, существует ли нормальность или нет. Центральная предельная теорема гласит, что если размер выборки достаточно велик, то оценки будут примерно нормальными, даже если остатки не будут.
  5. Это зависит от того, на какой вопрос вы пытаетесь ответить и насколько «приблизительным» вы довольны.

Еще один момент, который важно понять (но часто смешанный в обучении), состоит в том, что здесь есть 2 типа невязок: теоретические невязки, которые представляют собой различия между наблюдаемыми значениями и истинной теоретической моделью, и наблюдаемые невязки, которые представляют собой различия между наблюдаемыми значениями и оценками из в настоящее время подобранной модели. Мы предполагаем, что теоретические остатки были нормальными. Наблюдаемые остатки не являются i, i или распределены нормально (но имеют среднее значение 0). Однако для практических целей наблюдаемые остатки действительно оценивают теоретические остатки и поэтому все еще полезны для диагностики.

Грег Сноу
источник
Для получения дополнительной информации об ошибках и остатках, я думаю, что полезно прочитать эту статью на вики en.wikipedia.org/wiki/Errors_and_residuals
Lil'Lobster
1
Y-Y^
yy^-
На вопросе Q1 (который как бы подтвержден в ответе на вопрос Q2): Ясно, что это остатки, а не Ys вообще. Когда ковариаты различаются между наблюдениями, вы можете легко иметь бимодальное предельное распределение, даже если остатки нормальны. Следовательно, нельзя просто смотреть на Ys, только на остатки.
Бьорн,
@ Бьорн, это хорошее разъяснение. Переменные y являются нормальными, условными для x, поэтому необработанные значения y представляют собой смесь нормалей, и график только значений y может не показывать нормальность, даже если они соответствуют предположению, что они являются нормальными условными для x. Для диагностики мы обычно используем остатки (потому что условная часть была в основном удалена). Предположение о (условной) нормальности относится как к теоретическим остаткам, так и к значениям y.
Грег Сноу
7

Краткие ответы:

  1. невязки
  2. нет
  3. зависит, оба подхода имеют свои преимущества и недостатки
  4. почему бы нет? Возможно, имеет смысл сравнивать медианы вместо средних.
  5. из того, что вы нам сказали, предположение о нормальности, вероятно, нарушено

Чем дольше ответ:

Предполагается, что зависимая переменная (y) нормально распределена, но с разными средствами для разных групп. Как следствие, если вы строите только распределение y, оно может легко отличаться от стандартной кривой в форме колокола. Остатки представляют собой распределение y с этими различиями в средних значениях «отфильтровано».

В качестве альтернативы вы можете посмотреть распределение y в каждой группе отдельно. Это также отфильтровывает различия в средствах между группами. Преимущество состоит в том, что таким образом вы также получаете информацию о распределении в каждой группе, что в вашем случае представляется актуальным. Недостаток заключается в том, что в каждой группе меньше наблюдений, чем в комбинированном наборе данных, который вы получите при просмотре остатков. Более того, вы не сможете осмысленно сравнивать группы, если у вас много групп, например, потому что вы ввели много переменных-предикторов для вашей модели или (квази-) непрерывную переменную-предиктор для вашей модели. Таким образом, если ваша модель состоит только из одной категориальной переменной-предиктора, а количество наблюдений в каждой группе достаточно велико, то может быть целесообразно проверить распределение y в каждой группе отдельно.

Мартен Буис
источник
7
Строго говоря, остатки являются лишь оценками неизвестных и непознаваемых ошибок или помех, поэтому даже если нормальность в принципе верна, вы не можете получить точно нормальные остатки на практике. Что еще более важно, нормальность ошибок является наименее важным допущением в этих методах!
Ник Кокс
@NickCox (+1) согласился по обоим пунктам
Мартен Буис
1

YX
XY


eYϵX
YY|XN(Xβ,σ2)
XYY|X


YX

Вопрос 3) Если вы делаете ANOVA, то, конечно, ваши общие остатки не обязательно должны быть нормальными (или, скорее, гомоскедастичными), это не имеет смысла. В регрессии, тем не менее, вам лучше иметь модель с полученными в итоге нормальными остатками. Если нет, ваши интервальные оценки и тесты будут неверными. Это может быть связано с определенными автокорреляциями или отсутствием смещения переменной. Если модель является на 100% правильной (включая, возможно, структурные разрывы и, если необходимо, взвешивание), то далеко не уместно принять нормальные условия ошибки, даже с центром около 0. На практике часто возникает вопрос: можем ли мы избежать этих вещей, если образец достаточно большой? Нет однозначного ответа, но для 100% правильного подхода да все остатки должны быть нормальными.
Важным моментом для использования линейных моделей, требующих нормальности, является то, что невязки, не являющиеся нормальными, в целом это в группе или нет, являются важным показателем того, что ваша модель может не соответствовать вашим данным.

Вопрос 4 и 5)
Это зависит от того, что вы подразумеваете под сравнением. Учитывая допущение о нормальных условиях ошибки, вы можете проверить на основе допущения о двух разных распределений. Вы также можете использовать оценку GLS для регрессии, чтобы учесть различные параметры распределения - ЕСЛИ у вас есть правильная модель ... и я полагаю, что ваши группы сами работают как индикатор / двоичная переменная?
Тогда, вероятно, будет очень трудно рассуждать о том, что распределение остатков будет нормальным - следствием этого является то, что, хотя вы можете что-то делать со своими данными, это будет не на основе обычного OLS.
Но это зависит от того, что вы хотите сделать с данными.


Y|X

Я думаю, что хорошим подходом было бы изучить алгебру регулярных OLS с акцентом на полученные распределения.

IMA
источник