Я читал где-то в литературе, что тест Шапиро – Вилка считается лучшим тестом нормальности, потому что для данного уровня значимости, , вероятность отклонения нулевой гипотезы, если она ложна, выше, чем в случае другого тесты на нормальность.
Не могли бы вы объяснить мне, используя математические аргументы, если это возможно, как именно это работает по сравнению с некоторыми другими тестами нормальности (скажем, тест Андерсона – Дарлинга)?
Ответы:
Сначала общее замечание: обратите внимание, что критерий Андерсона-Дарлинга предназначен для полностью определенных распределений, а критерий Шапиро-Уилка для нормалей с любым средним и дисперсией. Однако, как отмечалось в D'Agostino & Stephens Андерсон-Дарлинг очень удобно приспосабливается к случаю оценки, сродни (но сходится быстрее и изменяется таким образом, что с ним проще работать, чем с Критерий Лилифорса для случая Колмогорова-Смирнова). В частности, по нормали, при , таблицы асимптотического значения может быть использован (не проверяйте пригодность для n <5). n=5 A ∗ = A 2 ( 1 + 4[ 1 ] п = 5 A*= A2( 1 + 4N- 25N2)
Как общее утверждение, это неверно.
Какие тесты нормальности «лучше», зависит от того, какие классы альтернатив интересуют вас. Одна из причин популярности Шапиро-Уилка состоит в том, что он имеет очень хорошую силу при широком диапазоне полезных альтернатив. Это встречается во многих исследованиях силы, и обычно работает очень хорошо, но это не всегда лучше.
Это довольно легко найти альтернативы, под которыми он менее мощный.
Например, по сравнению с альтернативами с легкими хвостами он часто имеет меньшую мощность, чем изучаемый диапазон (сравните их в тесте нормальности на единообразных данных Например, при тест, основанный на имеет мощность около 63% по сравнению с чуть более 38% для Shapiro Wilk). n=30ед.и = макс ( х ) - мин ( х )с д( х ) n = 30 U
Андерсон-Дарлинг (с поправкой на оценку параметров) работает лучше по двойной экспоненте. Момент асимметрии лучше против некоторых косых альтернатив.
Я объясню в общих чертах (если вы хотите получить более конкретные подробности, оригинальными статьями и некоторыми из последующих статей, в которых они обсуждаются, будет лучшим выбором):
Рассмотрим более простой, но тесно связанный тест - Shapiro-Francia; фактически это функция корреляции между статистикой заказа и ожидаемой статистикой заказа при нормальности (и, как таковая, довольно прямая мера «насколько прямая линия» в нормальном графике QQ). Насколько я помню, Shapiro-Wilk является более мощным, потому что он также учитывает ковариации между статистикой порядка, создавая лучшую линейную оценку из графика QQ, который затем масштабируется на . Когда распределение далеко от нормального, отношение не близко к 1.сσ s
Для сравнения, Андерсон-Дарлинг, как и Колмогоров-Смирнов и Крамер-фон Мизес, основан на эмпирическом CDF. В частности, он основан на взвешенных отклонениях между ECDF и теоретическим ECDF (взвешивание для дисперсии делает его более чувствительным к отклонениям в хвосте).
Тест Шапиро и Чена (1995 г.) (основанный на расстояниях между статистиками порядков) часто демонстрирует немного большую мощность, чем Шапиро-Уилк (но не всегда); они часто работают очень похожим образом.[ 2 ]
-
Используйте Shapiro Wilk, потому что он часто мощный, широко доступный, и многие знакомы с ним (избавляя от необходимости подробно объяснять, что это такое, если вы используете его в газете) - просто не используйте его в иллюзии, что он «лучший тест нормальности». Нет лучшего теста на нормальность.
[1]: Д'Агостино, Р.Б. и Стефенс, Массачусетс (1986),
«Методы совершенства» ,
Марсель Деккер, Нью-Йорк.
[2]: Чен Л. и Шапиро С. (1995)
«Альтернативный тест на нормальность, основанный на нормированных расстояниях».
Журнал статистических расчетов и моделирования 53 , 269-287.
источник
shapiro.test
в R приведет к ошибке.sample size must be between 3 and 5000
Затем какой еще тест следует использовать?Ясно, что сравнение, которое вы прочитали, не включало
SnowsPenultimateNormalityTest
( http://cran.r-project.org/web/packages/TeachingDemos/TeachingDemos.pdf ), поскольку оно имеет максимально возможную мощность среди всех альтернатив. Таким образом, это должно считаться «Лучшим», если сила является единственным соображением (обратите внимание, что мои мнения явно предвзяты, но задокументированы в ссылке / документации).Тем не менее, я согласен с замечанием Ника Кокса о том, что лучший тест - это скорее сюжет, чем формальный тест, поскольку вопрос «достаточно нормальный» гораздо важнее, чем «совершенно нормальный». Если вам нужен содержательный тест, я бы предложил объединить график qq с методологией, приведенной в этой статье:
Одной из реализаций этого является
vis.test
функция в пакете TeachingDemos для R (тот же пакет, что иSnowsPenultimateNormalityTest
).источник
Я опаздываю на вечеринку, но отвечу ссылками на опубликованные рецензируемые исследования. Причина, по которой я не отвечаю «да» или «нет» на вопрос ОП, заключается в том, что он сложнее, чем может показаться. Не существует ни одного теста, который был бы самым мощным для образцов, поступающих из любого распределения с выбросами или без них. Выбросы могут сильно уменьшить мощность одного теста и увеличить для другого. Некоторые тесты работают лучше, когда образец имеет симметричное распределение и т. Д.
а также
Если вы действительно хотите свести их исследования к да / нет, тогда ответ - ДА. Тест Шапиро-Уилкса в большинстве случаев выглядит несколько более мощным, чем тест Андерсона-Дарлинга. Они рекомендуют тест Шапиро Уилка, если вы не имеете в виду конкретный альтернативный дистрибутив. Однако, если вы заинтересованы в этом вопросе, статья стоит прочитать. По крайней мере, посмотрите на таблицы.
Эдит Сейер, Тесты нормальности: Сравнение мощности , в Международной энциклопедии статистической науки, 2014 - обзор опубликованных исследований по этому вопросу. Опять же, ответ зависит от образца и ваших знаний об альтернативном распределении, но тривиальным ответом будет ДА, Шапиро-Уилк, как правило, более мощный, но не всегда.
Генри С. Тод, Тесты нормальности , в Международной энциклопедии статистических наук, 2014 - Описание популярных тестов нормальности. Его рекомендация:
Теперь, это было все об одномерных тестах. Thode (2002) также имеет многовариантный тест, данные с цензурой, нормальные смеси, тестирование в присутствии выбросов и многое другое.
источник
Более серьезный ответ на этот вопрос и особенно постоянный интерес @ silverfish. Один из подходов к ответам на подобные вопросы - провести несколько симуляций для сравнения. Ниже приведен некоторый R-код, который моделирует данные при различных альтернативах и выполняет несколько тестов нормальности и сравнивает мощность (и доверительный интервал для мощности, поскольку мощность оценивается посредством моделирования). Я несколько изменил размеры выборки, потому что было неинтересно, когда многие из степеней были близки к 100% или 5%, я нашел круглые числа, которые дали мощности около 80%. Любой желающий может легко взять этот код и изменить его для разных предположений, разных альтернатив и т. Д.
Вы можете видеть, что есть альтернативы, для которых некоторые тесты работают лучше, а другие - хуже. Важным вопросом является то, какие альтернативы являются наиболее реалистичными для ваших научных вопросов / области. Это действительно должно сопровождаться моделированием влияния типов ненормальностей, представляющих интерес, на другие выполняемые тесты. Некоторые из этих типов ненормальностей сильно влияют на другие обычные тесты, другие не сильно влияют на них.
источник