«Обратный» Шапиро – Вилк

Тест Шарипо-Вилка, согласно википедии , проверяет нулевую гипотезу ( ) «Население обычно распределено». $H_0$

Я ищу похожий тест на нормальность с «Население обычно не распределено». $H_0$

Имея такой тест, я хочу вычислить значение, чтобы отклонить на уровне значимости тогда и только тогда, когда ; доказывая, что мое население нормально распределено. $p$ $H_0$ $\alpha$ $p < \alpha$

Обратите внимание, что использование теста Шарипо-Уилка и принятие если является неправильным подходом, поскольку буквально означает «у нас недостаточно доказательств, чтобы доказать, что H0 не имеет места». $H_0$ $p > \alpha$

Связанные темы - значение значения $p$ , бесполезно ли тестирование нормальности? , но я не вижу решения моей проблемы.

Вопросы: Какой тест я должен использовать? Это реализовано в R?

hypothesis-testing goodness-of-fit normality-assumption equivalence petrbel
источник

Нулевая гипотеза «не нормально распределена» не применима. Это пространство будет включать все распределения, сколь угодно близкие, но не совсем нормальные. Вы даете мне любой конечный набор данных. Я выбираю эмпирическое распределение, которое не является нормальным и поэтому принадлежит пустому пространству. Не могу отказаться.

А. Уэбб

Этот вопрос, такой же, как ваш предыдущий, требует невозможного. Правильный ответ объяснил бы, как работают статистические проверки гипотез, поэтому я указал вам на stats.stackexchange.com/questions/31 в комментарии к вашему другому вопросу.

whuber

В то время как нулевая гипотеза «обычно не распределена» невозможна, нулевая гипотеза «распределяется с абсолютными значениями нормальной статистики добротности, которая, по крайней мере, так же отличается от

» по линиям теста эквивалентности, представляется разумной. Другими словами, нужно уметь проверять на ноль «ненормально по крайней мере так много ». @gung предложил именно это в своем ответе.

ε

$\varepsilon$

Алексис

Ответы:

Там нет такого понятия , как тест , что ваши данные будут нормально распределены. Есть только тесты, что ваши данные обычно не распространяются. Таким образом, есть такие тесты, как Шапиро-Вилк, где (есть многие другие), но никаких тестовгде нуль является точто население не является нормальным и альтернативная гипотеза состоитчто население является нормальным. $H_0\!: \rm normal$

Все, что вы можете сделать, - это выяснить, какое отклонение от нормы вам небезразлично (например, асимметрия), и насколько большим должно быть это отклонение, прежде чем оно вас обеспокоит. Затем вы можете проверить, было ли отклонение от идеальной нормальности в ваших данных меньше критического значения. Для получения дополнительной информации об общей идее это может помочь прочитать мой ответ здесь: почему статистики говорят, что незначительный результат означает «вы не можете отвергнуть ноль», а не принять нулевую гипотезу?

Gung - Восстановить Монику
источник

Я хочу вычислить значение p, чтобы отклонить H0 на уровне значимости α тогда и только тогда, когда p <α; доказывая, что мое население нормально распределено.

Нормальное распределение возникает, когда данные генерируются серией аддитивных событий iid (см. Изображение quincunx ниже). Это означает отсутствие обратной связи и никакой корреляции. Похоже ли это на процесс, который приводит ваши данные? Если нет, то это, вероятно, не нормально.

Существует вероятность того, что тип процесса может происходить в вашем случае. Самое близкое к тому, что вы можете «доказать», это собрать достаточно данных, чтобы исключить любые другие дистрибутивы, которые могут придумать люди (что, вероятно, не практично). Другой способ состоит в том, чтобы вывести нормальное распределение из некоторой теории наряду с некоторыми другими предсказаниями. Если данные соответствуют всем им, и никто не может придумать другого объяснения, то это было бы хорошим доказательством в пользу нормального распределения.

https://en.wikipedia.org/wiki/Bean_machine

Теперь, если вы не ожидаете какого-либо конкретного распространения априори, все же может быть разумно использовать нормальное распределение для обобщения данных, но признайте, что это по сути выбор из-за незнания ( https://en.wikipedia.org/wiki/ Principle_of_maximum_entropy ). В этом случае вы не хотите знать, нормально ли распределено население, скорее вы хотите знать, является ли нормальное распределение разумным приближением для вашего следующего шага.

В этом случае вы должны предоставить свои данные (или сгенерированные данные, которые похожи) вместе с описанием того, что вы планируете делать с ними, а затем спросить: «Каким образом допущение нормальности в этом случае может ввести меня в заблуждение?»

синевато-багровый
источник

Я на самом деле знаю, что данные нормальные (независимое измерение на независимых компьютерах), однако мне нужно сделать некоторые предположения для моей диссертации .. спасибо за разъяснения и пример :)

petrbel

Между прочим, Кригер представил прекрасную критику использования Quincunx Гальтона в Кригер, N. (2012). Кто и что такое «население»? исторические дебаты, текущие противоречия и последствия для понимания «здоровья населения» и устранения несправедливости в отношении здоровья. Milbank Quarterly , 90 (4): 634–681.

Алексис

@petrbel Эта ситуация тонко отличается от того, что описано выше. Вы можете придумать квинкункс, где каждое наблюдение идентифицируется, а процесс, который генерирует данные, - нет. Смотрите здесь для нормального логарифмического примера: LIMPERT et al. Логнормальные распределения по наукам: ключи и подсказки. Май 2001 г. / Том. 51 № 5. BioScience.

Яркий

@Alexis Я вижу, что Krieger (2012) воспроизводит рисунок из Limpert et al. (2001) и делает упущенным Петрбелом пункт: «изменение структуры может изменить вероятности исхода даже для идентичных объектов, создавая, таким образом, разные распределения населения».

Яркий

Вы никогда не сможете «доказать» предположение о нормальности в ваших данных. Только предлагайте доказательства против этого как предположение. Тест Шапиро-Уилка является одним из способов сделать это и используется все время, чтобы оправдать предположение о нормальности. Причина заключается в том, что вы начинаете с принятия нормальности. Вы тогда спросите, мои данные предполагают, что я делаю глупое предположение? Таким образом, вы идете вперед и проверить это с Шапиро-Уилком. Если вам не удастся отвергнуть нулевую гипотезу, то данные не предполагают, что вы делаете глупое предположение.

$Y, X$

TrynnaDoStat
источник

Та практика, которую вы описываете, является в точности неправильным подходом, о котором упоминал Петрбель. Тесты, как правило, согласуются, поэтому чем больше размер выборки, тем больше вероятность объявить предположение о нормальности глупой идеей. Это само по себе глупо, поскольку при больших размерах выборки предположение о нормальности менее критично из-за асимптотической устойчивости большинства процедур.

Хорст Грюнбуш

@ HorstGrünbusch Вы не согласны с тем, что тест Шапиро-Уилка является верным способом проверки предположения о том, что данные являются нормальными?

TrynnaDoStat

Если вы согласны с тем, что это правильный подход, я не уверен, с чем вы не согласны в моем ответе.

TrynnaDoStat

2 α

$2\alpha$

@ HorstGrünbusch Кажется, ваша проблема с моим ответом связана с идеей проверки гипотез в целом. В частности, тот факт, что во многих ситуациях проверки гипотез будут отклонять ноль с вероятностью 1, когда размер выборки приближается к бесконечности.

TrynnaDoStat