Какие тесты я использую, чтобы подтвердить, что остатки нормально распределены?

20

У меня есть некоторые данные, которые выглядят из графика зависимости остатков от времени почти нормально, но я хочу быть уверен. Как я могу проверить нормальность ошибок?

Pb1
источник
3
Тесно связаны: соответствующие тесты нормальности для малых образцов . Вот пара других вопросов, которые могут представлять интерес: тестирование нормальности, по сути, бесполезное , для обсуждения ценности тестирования нормальности, и что, если остатки нормально распределены, но у них есть нет , для обсуждения / уточнения смысла, в котором нормальность является допущением линейной модели.
gung - Восстановить Монику
Можно увидеть очень распространенное недопонимание сути теста Шапиро Уилка! Правильный смысл в пользу H0 заключается в том, что H0 нельзя отклонить, но ОСТОРОЖНО! Это не означает автоматически, что «данные распределяются нормально» !!! Альтернативный результат - «Данные обычно не распространяются».
Джо Халленбек

Ответы:

28
  1. Ни один тест не скажет вам, что ваши остатки обычно распределяются. На самом деле можно с уверенностью поспорить, что это не так .

  2. Проверка гипотез, как правило, не является хорошей идеей, поскольку проверка ваших предположений. Эффект ненормальности на ваших умозаключениях обычно не зависит от размера выборки *, но результат теста значимости является . Небольшое отклонение от нормальности будет очевидно при большом размере выборки, даже если ответ на вопрос о реальном интересе («в какой степени это повлияло на мои выводы?») Может быть «едва ли вообще». Соответственно, большое отклонение от нормы при небольшом размере выборки может не приблизиться к значимости.

    * (добавлено в редактировании) - на самом деле это слишком слабое утверждение. Влияние ненормальности фактически уменьшается с размером выборки практически в любое время, когда CLT и теорема Слуцкого будут выполняться, в то время как способность отклонять нормальность (и, по-видимому, избегать процедур с нормальной теорией) возрастает с размером выборки ... так просто, когда вы в наибольшей степени способны идентифицировать ненормальность, как правило, когда это не имеет значения † в любом случае ... и тест не помогает, когда он действительно имеет значение, в небольших выборках.

    ну, по крайней мере, насколько уровень значимости идет. Мощность все еще может быть проблемой, хотя, если мы рассматриваем большие выборки, как здесь, это может быть меньше проблемы.

  3. Что ближе к измерению величины эффекта, так это некоторая диагностика (отображение или статистика), которая каким-то образом измеряет степень ненормальности. График QQ является очевидным отображением, и график QQ для одной и той же совокупности при одном размере выборки и при другом размере выборки представляют собой, по меньшей мере, обе оценки с шумом одной и той же кривой - демонстрирующие примерно одинаковую «ненормальность»; оно должно быть, по крайней мере, приблизительно монотонно связано с желаемым ответом на интересующий вопрос.

Если вам нужно использовать тест, Shapiro-Wilk, вероятно, примерно так же хорош, как и все остальное (тест Chen-Shapiro обычно немного лучше на альтернативах, представляющих общий интерес, но труднее найти реализации), но он отвечает на вопрос, который вы уже знаю ответ на; каждый раз, когда вы не можете отказаться, он дает ответ, который вы можете быть уверены, что это неправильно.

Glen_b - Восстановить Монику
источник
4
+1 Glen_b, потому что вы делаете несколько хороших замечаний. Однако я бы не стал так негативно относиться к использованию тестов на пригодность. Когда размер выборки небольшой или умеренный, тест не будет иметь достаточной мощности, чтобы обнаружить небольшие отклонения от нормального распределения. Очень большие различия могут привести к очень маленьким значениям p (например, 0,0001 или ниже). Это может быть более формальным признаком, чем визуальное наблюдение за графиком qq, но все же очень полезно. Можно также посмотреть на оценки асимметрии и эксцесса. Именно в очень больших образцах тесты на пригодность являются проблематичными.
Майкл Р. Черник
4
В этих случаях небольшие отклонения будут обнаружены. Пока аналитик признает, что на практике распределение населения будет не совсем нормальным, а отказ от нулевой гипотезы просто говорит ему, что его распределение немного ненормально, он не будет сбиваться с пути. Затем следователь должен сам решить, является ли допущение нормальности проблемой или нет с учетом незначительного отклонения, которое обнаруживает тест. Шапиро-Уилк на самом деле является одним из наиболее мощных тестов против гипотезы нормальности.
Майкл Р. Черник
+1, мне особенно нравится пункт № 2; в этой связи стоит отметить, что даже если перекос или эксцесс довольно плохой, с действительно большим N, центральная предельная теорема покроет вас, так что это время, когда вам меньше всего нужна нормальность.
gung - Восстановить Монику
3
@ gung есть некоторые обстоятельства, когда хорошее приближение к нормальности будет иметь значение. Например, при построении интервалов прогнозирования используются нормальные предположения. Но я бы все-таки больше полагался на диагностику (которая показывает, насколько она ненормальная), чем на тест
Glen_b -Reinstate Monica
Ваша точка зрения относительно интервалов прогнозирования является хорошей.
gung - Восстановить Монику
8

Тест Шапиро-Уилка - одна из возможностей.

Тест Шапиро-Вилка

Этот тест реализован практически во всех статистических программных пакетах. Нулевая гипотеза состоит в том, что остатки обычно распределены, поэтому небольшое значение p указывает, что вы должны отклонить нулевое значение и сделать вывод, что остатки обычно не распределены.

Обратите внимание, что если размер вашей выборки велик, вы почти всегда отклоняете ее, поэтому визуализация остатков важнее.

лощина
источник
Это "Вилк", а не "Вилкс".
Майкл Р. Черник
1

Из википедии:

Тесты одномерной нормальности включают в себя критерий К-квадрата Д'Агостино, тест Жарка-Бера, тест Андерсона-Дарлинга, критерий Крамера-фон Мизеса, критерий Лилифорса для нормальности (сам по себе является адаптацией теста Колмогорова-Смирнова), Критерий Шапиро – Вилка, критерий хи-квадрат Пирсона и критерий Шапиро-Франсия. В статье 2011 года, опубликованной в «Журнале статистического моделирования и аналитики» [1], делается вывод о том, что Шапиро-Уилк обладает наилучшей силой для данного значения, а за ним внимательно следят Андерсон-Дарлинг при сравнении Шапиро-Уилка, Колмогорова-Смирнова, Лиллифорса и Андерсона. Дорогая тесты.

Тейлор
источник
1
-1: Вы можете включить ссылку на страницу Википедии, удалить сноску («[1]») и использовать функцию цитаты.
Бернд Вайс,
1
Предостережение, которое дает Glen_b, важно иметь в виду, когда используется какой-либо из этих качественных тестов соответствия. Я думаю, что результат, который вы цитируете о Шапиро-Уилке, не такой общий, как вы его представляете. Я не верю, что существует самый мощный в мире тест на нормальность.
Майкл Р. Черник
2
N1
@GregSnow У меня нет времени, чтобы тщательно просмотреть вашу посылку, и, возможно, я не достаточно опытен с R, чтобы следить за всем. Вы говорите, что существует самый мощный в мире тест на нормальность, или вы говорите, что приводите примеры, показывающие, когда различные тесты наиболее эффективны и, следовательно, что глобальный тест не существует. У меня есть сомнения, что он существует, и я не думаю, что Шапиро-Уилк был бы им. Если вы утверждаете, что он существует, я хотел бы увидеть математическое доказательство или ссылку на него.
Майкл Р. Черник
1
@MichaelChernick, я утверждаю, что мой тест будет иметь столько же или больше мощности (с той или иной вероятностью отклонить нулевую гипотезу данных, поступающих из точной нормали), как и любой другой тест нормальности. Код R несложно следовать, основной код для вычисления p-значения - «tmp.p <- если (любой (is.rational (x))) {0», доказательство его мощности должно быть очевидным ( Я только утверждал, что он мощный и документация может быть полезной, но не сам тест полезен, Google для «афоризма Кокрейна»).
Грег Сноу