Эта проблема, кажется, постоянно поднимает свою уродливую голову, и я пытаюсь обезглавить ее для моего собственного понимания статистики (и здравомыслия!).
Допущения общих линейных моделей (t-критерий, ANOVA, регрессия и т. Д.) Включают «допущение нормальности», но я обнаружил, что это редко описывается четко.
Я часто сталкиваюсь с учебниками / руководствами по статистике и т. Д., Просто утверждая, что «допущение нормальности» применимо к каждой группе (т. Е. Категориальным переменным X), и нам следует изучить отклонения от нормальности для каждой группы .
Вопросы :
относится ли предположение к значениям Y или остаткам Y?
для конкретной группы возможно ли иметь строго ненормальное распределение значений Y (например, искаженное), НО приблизительно (или, по крайней мере, более нормальное) распределение остатков Y?
Другие источники описывают, что предположение относится к остаткам модели (в случаях, когда есть группы, например, t-тесты / ANOVA), и мы должны исследовать отклонения от нормальности этих остатков (т. Е. Только один график / тест QQ для бег).
подразумевает ли нормальность невязок для модели нормальность невязок для групп ? Другими словами, должны ли мы просто исследовать остатки модели (в отличие от инструкций во многих текстах)?
Чтобы поместить это в контекст, рассмотрим этот гипотетический пример:
- Я хочу сравнить высоту дерева (Y) между двумя популяциями (X).
- В одной популяции распределение Y сильно искажено (то есть большинство деревьев короткие, очень немногие высокие), в то время как другая практически нормальная
- Рост в целом выше в нормально распределенной популяции (предполагая, что может быть «реальная» разница).
- Преобразование данных существенно не улучшает распределение первой популяции.
Во-первых, допустимо ли сравнивать группы с учетом радикально разных распределений по высоте?
Как мне приблизиться к «предположению о нормальности» здесь? Напомним, высота в одной популяции обычно не распределена. Проверяю ли я остатки для обеих популяций отдельно ИЛИ остатки для модели (t-критерий)?
Пожалуйста, обращайтесь к вопросам по номерам в ответах, опыт показывает, что люди легко теряются или отвлекаются (особенно я!). Имейте в виду, я не статистика; хотя у меня есть достаточно концептуальное (то есть, не техническое!) понимание статистики.
PS, я искал архивы и прочитал следующие темы, которые не укрепили мое понимание:
- ANOVA предположение нормальность / нормальное распределение остатков
- Нормальность остатков в сравнении с выборочными данными; как насчет t-тестов?
- Является ли тестирование нормальности «по существу бесполезным»?
- Тестирование нормальности
- Оценка нормальности распределения
- Какие тесты я использую, чтобы подтвердить, что остатки нормально распределены?
- Что делать, если критерий Колмогорова-Смирнова значим для остатков параметрического теста, но асимметрия и эксцесс выглядят нормально?
Ответы:
Один момент, который может помочь вашему пониманию:
Если нормально распределен, а a и b являются константами, то y = x - ax a b также нормально распределен (но возможно с другим средним значением и дисперсией).y=x−ab
Поскольку остатки представляют собой только значения y минус оценочное среднее значение (стандартизованные остатки также делятся на оценку стандартной ошибки), то, если значения y обычно распределены, то и остатки также и наоборот. Поэтому, когда мы говорим о теории или предположениях, не имеет значения, о чем мы говорим, потому что одно подразумевает другое.
Так что для вопросов это приводит к:
Еще один момент, который важно понять (но часто смешанный в обучении), состоит в том, что здесь есть 2 типа невязок: теоретические невязки, которые представляют собой различия между наблюдаемыми значениями и истинной теоретической моделью, и наблюдаемые невязки, которые представляют собой различия между наблюдаемыми значениями и оценками из в настоящее время подобранной модели. Мы предполагаем, что теоретические остатки были нормальными. Наблюдаемые остатки не являются i, i или распределены нормально (но имеют среднее значение 0). Однако для практических целей наблюдаемые остатки действительно оценивают теоретические остатки и поэтому все еще полезны для диагностики.
источник
Краткие ответы:
Чем дольше ответ:
Предполагается, что зависимая переменная (y) нормально распределена, но с разными средствами для разных групп. Как следствие, если вы строите только распределение y, оно может легко отличаться от стандартной кривой в форме колокола. Остатки представляют собой распределение y с этими различиями в средних значениях «отфильтровано».
В качестве альтернативы вы можете посмотреть распределение y в каждой группе отдельно. Это также отфильтровывает различия в средствах между группами. Преимущество состоит в том, что таким образом вы также получаете информацию о распределении в каждой группе, что в вашем случае представляется актуальным. Недостаток заключается в том, что в каждой группе меньше наблюдений, чем в комбинированном наборе данных, который вы получите при просмотре остатков. Более того, вы не сможете осмысленно сравнивать группы, если у вас много групп, например, потому что вы ввели много переменных-предикторов для вашей модели или (квази-) непрерывную переменную-предиктор для вашей модели. Таким образом, если ваша модель состоит только из одной категориальной переменной-предиктора, а количество наблюдений в каждой группе достаточно велико, то может быть целесообразно проверить распределение y в каждой группе отдельно.
источник
Вопрос 3) Если вы делаете ANOVA, то, конечно, ваши общие остатки не обязательно должны быть нормальными (или, скорее, гомоскедастичными), это не имеет смысла. В регрессии, тем не менее, вам лучше иметь модель с полученными в итоге нормальными остатками. Если нет, ваши интервальные оценки и тесты будут неверными. Это может быть связано с определенными автокорреляциями или отсутствием смещения переменной. Если модель является на 100% правильной (включая, возможно, структурные разрывы и, если необходимо, взвешивание), то далеко не уместно принять нормальные условия ошибки, даже с центром около 0. На практике часто возникает вопрос: можем ли мы избежать этих вещей, если образец достаточно большой? Нет однозначного ответа, но для 100% правильного подхода да все остатки должны быть нормальными.
Важным моментом для использования линейных моделей, требующих нормальности, является то, что невязки, не являющиеся нормальными, в целом это в группе или нет, являются важным показателем того, что ваша модель может не соответствовать вашим данным.
Вопрос 4 и 5)
Это зависит от того, что вы подразумеваете под сравнением. Учитывая допущение о нормальных условиях ошибки, вы можете проверить на основе допущения о двух разных распределений. Вы также можете использовать оценку GLS для регрессии, чтобы учесть различные параметры распределения - ЕСЛИ у вас есть правильная модель ... и я полагаю, что ваши группы сами работают как индикатор / двоичная переменная?
Тогда, вероятно, будет очень трудно рассуждать о том, что распределение остатков будет нормальным - следствием этого является то, что, хотя вы можете что-то делать со своими данными, это будет не на основе обычного OLS.
Но это зависит от того, что вы хотите сделать с данными.
Я думаю, что хорошим подходом было бы изучить алгебру регулярных OLS с акцентом на полученные распределения.
источник