Что я должен проверить на нормальность: необработанные данные или остатки?

27

Я узнал, что должен проверять нормальность не на необработанных данных, а на их остатках. Должен ли я рассчитать невязки, а затем пройти тест Шапиро – Вилка?

Рассчитываются остатки как: ?Ximean

Пожалуйста, посмотрите этот предыдущий вопрос для моих данных и дизайна.

стан
источник
Вы делаете это с помощью программного обеспечения (и если да, то какое программное обеспечение) или вы пытаетесь сделать вычисления вручную?
Крис Симокат
@ Крис Simokat: Я пытаюсь сделать это с помощью R и Statistica ...
Стан
3
Этот вопрос может представлять интерес: что-если-остатки-нормально распределены-но-у-нет ; в нем также рассматривается вопрос о том, требуется ли нормальность необработанных данных или остатков.
gung - Восстановить Монику
1
Извините, я недостаточно подкован с SAS, чтобы знать, как заставить это делать это автоматически в различных ситуациях. Однако, когда вы запустите регрессию, вы сможете сохранить остатки в выходном наборе данных, и тогда можно составить qq-plot.
gung - Восстановить Монику
1
Хорошая информация Карен Грейс-Martin: это и это
Стан

Ответы:

37

Почему вы должны проверить на нормальность?

Стандартное допущение в линейной регрессии состоит в том, что теоретические остатки независимы и нормально распределены. Наблюдаемые невязки являются оценкой теоретических невязок, но не являются независимыми (существуют невязки, которые устраняют некоторую зависимость, но все же дают только приближение истинных невязок). Таким образом, проверка наблюдаемых остатков не гарантирует совпадения теоретических остатков.

Если теоретические остатки распределены не совсем нормально, но размер выборки достаточно велик, то Центральная предельная теорема говорит, что обычный вывод (тесты и доверительные интервалы, но не обязательно интервалы прогнозирования), основанные на допущении нормальности, все равно будет приблизительно верным ,

Также обратите внимание, что тесты нормальности являются тестами исключения, они могут сказать вам, что данные вряд ли поступили из нормального распределения. Но если тест несущественный, это не означает, что данные поступили из нормального распределения, это также может означать, что у вас просто недостаточно мощности, чтобы увидеть разницу. Большие размеры выборки дают больше возможностей для обнаружения ненормальности, но большие выборки и CLT означают, что ненормальность наименее важна. Таким образом, для небольших размеров выборки допущение нормальности важно, но тесты не имеют смысла, для больших размеров выборки тесты могут быть более точными, но вопрос точной нормальности становится бессмысленным.

Таким образом, комбинируя все вышеперечисленное, более важным, чем проверка точной нормальности, является понимание науки, лежащей в основе данных, чтобы увидеть, достаточно ли близка популяция к нормальной. Графики типа qqplots могут быть хорошей диагностикой, но также необходимо понимание науки. Если есть опасения, что существует слишком большая асимметрия или потенциал для выбросов, то доступны непараметрические методы, которые не требуют предположения о нормальности.

Грег Сноу
источник
6
Чтобы ответить на вопрос в первой строке: Приблизительная нормальность имеет решающее значение для применения F-тестов в ANOVA и для создания доверительных интервалов вокруг отклонений. (+1) за хорошие идеи.
whuber
4
@whuber, да приблизительная нормальность важна, но тесты проверяют точную нормальность, а не приблизительную. И для больших размеров выборки, которые приближаются, не обязательно должны быть очень близкими (где тесты, скорее всего, отклонят). Хороший сюжет и знание науки, которая дала данные, гораздо полезнее, чем формальный тест нормальности, если вы оправдываете использование F-тестов (или другого нормального вывода).
Грег Сноу
Грег, хорошо, я делаю подборку распределения и вижу, что мои данные взяты, скажем, из бета-версии или гамма-распределения, и что мне тогда делать? ANOVA, что предполагает закон Гаусса?
Стан
2
(+1) Все прошло хорошо, кроме как в конце. Вам не нужно выбирать между (а) регрессией, основанной на допущении нормальности, и (б) непараметрическими процедурами. Преобразования до регрессии и / или обобщенные линейные модели - это только две основные альтернативы. Я признаю, что вы здесь не пытаетесь обобщить все о статистическом моделировании, но последняя часть может быть немного усилена.
Ник Кокс
Таким образом, в конце, в линейной регрессии, мы должны проверить нормальность необработанных данных или нормальность остатков?
vasili111
7

Гауссовские предположения относятся к остаткам от модели. В отношении исходных данных не требуется никаких предположений. В качестве примера можно привести распределение ежедневных продаж пива. введите описание изображения здесьПосле того, как разумная модель охватила день недели, влияние праздников / событий, сдвиги уровней / тренды времени, мы получаемвведите описание изображения здесь

IrishStat
источник
Спасибо за ваш ответ. Вы хотите сказать, что мы можем преобразовать наши данные в распределение Гаусса ...?
стан
3
Стэн, роль моделирования заключается в том, чтобы делать именно это, чтобы можно было сделать вывод и проверить гипотезу.
IrishStat
6

Во-первых, вы можете «посмотреть на это», используя QQ-сюжет, чтобы получить общее представление о том, как сгенерировать его в R.

В соответствии с руководством по R вы можете передать свой вектор данных непосредственно в функцию shapiro.test ().

Если вы хотите рассчитать остатки самостоятельно, то да, каждый остаток рассчитывается таким образом по вашему набору наблюдений. Вы можете увидеть больше об этом здесь .

Крис Симокат
источник
Итак, насколько я понял методы для Normality фактически проверяют нормальность остатков наших необработанных данных. Они делают это автоматически, и мы не должны вычислять остатки и подвергать их тестированию. И в повседневной речи мы обычно переключаемся на «мои данные нормально распределены», предполагая, что остатки моих данных «нормальны». Пожалуйста, поправьте меня.
стан
6
Я не согласен с вашей последней точкой. Люди, которые говорят, что мои данные обычно распределяются, обычно не ссылаются на остатки. Я думаю, что люди говорят это, потому что они думают, что каждая статистическая процедура требует, чтобы все данные были нормальными.
Глен
@ Глен, откровенно говоря, я (ошибочно) до сих пор думаю то же самое ... Я не могу понять (это моя проблема), если у меня есть гамма или бета или какие-либо распределенные данные, я должен сделать статистику для них так же, как они обычно распространяется несмотря на их истинное / естественное распределение? А факт раздачи только для индикации? Я знал только распределение Гаусса до этого сайта ...
Стан