«Обратный» Шапиро – Вилк

11

Тест Шарипо-Вилка, согласно википедии , проверяет нулевую гипотезу ( ) «Население обычно распределено».ЧАС0

Я ищу похожий тест на нормальность с «Население обычно не распределено».ЧАС0

Имея такой тест, я хочу вычислить значение, чтобы отклонить H 0 на уровне значимости α тогда и только тогда, когда p < α ; доказывая, что мое население нормально распределено.пЧАС0αп<α

Обратите внимание, что использование теста Шарипо-Уилка и принятие если p > α, является неправильным подходом, поскольку буквально означает «у нас недостаточно доказательств, чтобы доказать, что H0 не имеет места».ЧАС0п>α

Связанные темы - значение значенияп , бесполезно ли тестирование нормальности? , но я не вижу решения моей проблемы.

Вопросы: Какой тест я должен использовать? Это реализовано в R?

petrbel
источник
6
Нулевая гипотеза «не нормально распределена» не применима. Это пространство будет включать все распределения, сколь угодно близкие, но не совсем нормальные. Вы даете мне любой конечный набор данных. Я выбираю эмпирическое распределение, которое не является нормальным и поэтому принадлежит пустому пространству. Не могу отказаться.
А. Уэбб
5
Этот вопрос, такой же, как ваш предыдущий, требует невозможного. Правильный ответ объяснил бы, как работают статистические проверки гипотез, поэтому я указал вам на stats.stackexchange.com/questions/31 в комментарии к вашему другому вопросу.
whuber
5
В то время как нулевая гипотеза «обычно не распределена» невозможна, нулевая гипотеза «распределяется с абсолютными значениями нормальной статистики добротности, которая, по крайней мере, так же отличается от » по линиям теста эквивалентности, представляется разумной. Другими словами, нужно уметь проверять на ноль «ненормально по крайней мере так много ». @gung предложил именно это в своем ответе. ε
Алексис

Ответы:

10

Там нет такого понятия , как тест , что ваши данные будут нормально распределены. Есть только тесты, что ваши данные обычно не распространяются. Таким образом, есть такие тесты, как Шапиро-Вилк, где (есть многие другие), но никаких тестовгде нуль является точто население не является нормальным и альтернативная гипотеза состоитчто население является нормальным. ЧАС0:NормaL

Все, что вы можете сделать, - это выяснить, какое отклонение от нормы вам небезразлично (например, асимметрия), и насколько большим должно быть это отклонение, прежде чем оно вас обеспокоит. Затем вы можете проверить, было ли отклонение от идеальной нормальности в ваших данных меньше критического значения. Для получения дополнительной информации об общей идее это может помочь прочитать мой ответ здесь: почему статистики говорят, что незначительный результат означает «вы не можете отвергнуть ноль», а не принять нулевую гипотезу?

Gung - Восстановить Монику
источник
5

Я хочу вычислить значение p, чтобы отклонить H0 на уровне значимости α тогда и только тогда, когда p <α; доказывая, что мое население нормально распределено.

Нормальное распределение возникает, когда данные генерируются серией аддитивных событий iid (см. Изображение quincunx ниже). Это означает отсутствие обратной связи и никакой корреляции. Похоже ли это на процесс, который приводит ваши данные? Если нет, то это, вероятно, не нормально.

Существует вероятность того, что тип процесса может происходить в вашем случае. Самое близкое к тому, что вы можете «доказать», это собрать достаточно данных, чтобы исключить любые другие дистрибутивы, которые могут придумать люди (что, вероятно, не практично). Другой способ состоит в том, чтобы вывести нормальное распределение из некоторой теории наряду с некоторыми другими предсказаниями. Если данные соответствуют всем им, и никто не может придумать другого объяснения, то это было бы хорошим доказательством в пользу нормального распределения.

https://upload.wikimedia.org/wikipedia/commons/7/7f/Quincunx_%28Galton_Box%29_-_Galton_1889_diagram.png https://en.wikipedia.org/wiki/Bean_machine

Теперь, если вы не ожидаете какого-либо конкретного распространения априори, все же может быть разумно использовать нормальное распределение для обобщения данных, но признайте, что это по сути выбор из-за незнания ( https://en.wikipedia.org/wiki/ Principle_of_maximum_entropy ). В этом случае вы не хотите знать, нормально ли распределено население, скорее вы хотите знать, является ли нормальное распределение разумным приближением для вашего следующего шага.

В этом случае вы должны предоставить свои данные (или сгенерированные данные, которые похожи) вместе с описанием того, что вы планируете делать с ними, а затем спросить: «Каким образом допущение нормальности в этом случае может ввести меня в заблуждение?»

синевато-багровый
источник
Я на самом деле знаю, что данные нормальные (независимое измерение на независимых компьютерах), однако мне нужно сделать некоторые предположения для моей диссертации .. спасибо за разъяснения и пример :)
petrbel
1
Между прочим, Кригер представил прекрасную критику использования Quincunx Гальтона в Кригер, N. (2012). Кто и что такое «население»? исторические дебаты, текущие противоречия и последствия для понимания «здоровья населения» и устранения несправедливости в отношении здоровья. Milbank Quarterly , 90 (4): 634–681.
Алексис
@petrbel Эта ситуация тонко отличается от того, что описано выше. Вы можете придумать квинкункс, где каждое наблюдение идентифицируется, а процесс, который генерирует данные, - нет. Смотрите здесь для нормального логарифмического примера: LIMPERT et al. Логнормальные распределения по наукам: ключи и подсказки. Май 2001 г. / Том. 51 № 5. BioScience.
Яркий
1
@Alexis Я вижу, что Krieger (2012) воспроизводит рисунок из Limpert et al. (2001) и делает упущенным Петрбелом пункт: «изменение структуры может изменить вероятности исхода даже для идентичных объектов, создавая, таким образом, разные распределения населения».
Яркий
2

Вы никогда не сможете «доказать» предположение о нормальности в ваших данных. Только предлагайте доказательства против этого как предположение. Тест Шапиро-Уилка является одним из способов сделать это и используется все время, чтобы оправдать предположение о нормальности. Причина заключается в том, что вы начинаете с принятия нормальности. Вы тогда спросите, мои данные предполагают, что я делаю глупое предположение? Таким образом, вы идете вперед и проверить это с Шапиро-Уилком. Если вам не удастся отвергнуть нулевую гипотезу, то данные не предполагают, что вы делаете глупое предположение.

Y,Икс

TrynnaDoStat
источник
Та практика, которую вы описываете, является в точности неправильным подходом, о котором упоминал Петрбель. Тесты, как правило, согласуются, поэтому чем больше размер выборки, тем больше вероятность объявить предположение о нормальности глупой идеей. Это само по себе глупо, поскольку при больших размерах выборки предположение о нормальности менее критично из-за асимптотической устойчивости большинства процедур.
Хорст Грюнбуш
@ HorstGrünbusch Вы не согласны с тем, что тест Шапиро-Уилка является верным способом проверки предположения о том, что данные являются нормальными?
TrynnaDoStat
Если вы согласны с тем, что это правильный подход, я не уверен, с чем вы не согласны в моем ответе.
TrynnaDoStat
2α
@ HorstGrünbusch Кажется, ваша проблема с моим ответом связана с идеей проверки гипотез в целом. В частности, тот факт, что во многих ситуациях проверки гипотез будут отклонять ноль с вероятностью 1, когда размер выборки приближается к бесконечности.
TrynnaDoStat