Проверка большого набора данных на нормальность - как и насколько это надежно?

12

Я изучаю часть моего набора данных, содержащую 46840 двойных значений в диапазоне от 1 до 1690, сгруппированных в две группы. Чтобы проанализировать различия между этими группами, я начал с изучения распределения значений, чтобы выбрать правильный тест.

Следуя руководству по тестированию на нормальность, я сделал qqplot, гистограмму и boxplot.

введите описание изображения здесь

введите описание изображения здесь введите описание изображения здесь

Это не похоже на нормальное распределение. Поскольку в справочнике несколько правильно сказано, что чисто графического исследования недостаточно, я также хочу проверить распределение на нормальность.

Учитывая размер набора данных и ограничение теста Шапиро-Вилкса в R, как следует проверить правильность данного распределения для нормальности и учитывая размер набора данных, является ли это даже надежным? ( См. Принятый ответ на этот вопрос )

Редактировать:

Ограничение теста Шапиро-Уилка, о котором я говорю, состоит в том, что тестируемый набор данных ограничен 5000 точками. Чтобы процитировать еще один хороший ответ по этой теме:

Еще одна проблема, связанная с тестом Шапиро-Уилка, заключается в том, что при подаче им большего количества данных шансы отклонения нулевой гипотезы возрастают. Так что получается, что для больших объемов данных могут быть обнаружены даже очень небольшие отклонения от нормальности, что приводит к отклонению события нулевой гипотезы, хотя для практических целей данные более чем нормальны.

[...] К счастью, shapiro.test защищает пользователя от описанного выше эффекта, ограничивая размер данных до 5000.

Что касается того, почему я тестирую на нормальное распространение в первую очередь:

Некоторые проверки гипотез предполагают нормальное распределение данных. Я хочу знать, могу ли я использовать эти тесты.

deemel
источник
11
Там нет смысла тестировать; любой тест любого использования на любом разумном уровне значимости будет явно отклонен. Какое бы руководство вы ни читали, оно вводило вас в заблуждение. Что вы подразумеваете под «надежный» точно. Какое «ограничение» Шапиро-Вилка вы имеете в виду? Я бы почти согласился с утверждением в ответе, на который вы ссылаетесь ... «Я никогда не сталкивался с ситуацией, когда нормальный тест - это то, что нужно» (хотя я однажды видел ситуацию, когда я думаю, что это это правильно, но люди почти всегда делают это по плохим причинам).
Glen_b
@Glen_b: между прочим, я обнаружил, что на днях я использовал Шапиро-Вилка для количественной оценки доказательств против нуля, которые кто-то из Академии ошибочно предположил, что они больше, чем из выборки оценок. Интересно, было ли это оправданным использованием?
Ник Стаунер
@NickStauner мой ответ стал слишком длинным для одного комментария, и я не хочу угадывать этот вопрос, добавив туда строку комментариев о вашем посте. Возможности: мы общаемся в чате, или вы задаете вопрос (на который я мог бы опубликовать исчерпывающий ответ), или мы обсуждаем это другим способом, например, по электронной почте.
Glen_b

Ответы:

14

Я не понимаю, почему вы беспокоитесь. Это явно не нормально - в этом случае графическое исследование мне кажется достаточным. У вас есть много наблюдений из того, что кажется хорошим чистым гамма-распределением. Просто иди с этим. это если надо - рекомендую справочную рассылку.

x=rgamma(46840,2.13,.0085);qqnorm(x);qqline(x,col='red')
введите описание изображения здесь

hist(rgamma(46840,2.13,.0085))

boxplot(rgamma(46840,2.13,.0085))

1.45.92.9

Ник Стаунер
источник