Я изучаю часть моего набора данных, содержащую 46840 двойных значений в диапазоне от 1 до 1690, сгруппированных в две группы. Чтобы проанализировать различия между этими группами, я начал с изучения распределения значений, чтобы выбрать правильный тест.
Следуя руководству по тестированию на нормальность, я сделал qqplot, гистограмму и boxplot.
Это не похоже на нормальное распределение. Поскольку в справочнике несколько правильно сказано, что чисто графического исследования недостаточно, я также хочу проверить распределение на нормальность.
Учитывая размер набора данных и ограничение теста Шапиро-Вилкса в R, как следует проверить правильность данного распределения для нормальности и учитывая размер набора данных, является ли это даже надежным? ( См. Принятый ответ на этот вопрос )
Редактировать:
Ограничение теста Шапиро-Уилка, о котором я говорю, состоит в том, что тестируемый набор данных ограничен 5000 точками. Чтобы процитировать еще один хороший ответ по этой теме:
Еще одна проблема, связанная с тестом Шапиро-Уилка, заключается в том, что при подаче им большего количества данных шансы отклонения нулевой гипотезы возрастают. Так что получается, что для больших объемов данных могут быть обнаружены даже очень небольшие отклонения от нормальности, что приводит к отклонению события нулевой гипотезы, хотя для практических целей данные более чем нормальны.
[...] К счастью, shapiro.test защищает пользователя от описанного выше эффекта, ограничивая размер данных до 5000.
Что касается того, почему я тестирую на нормальное распространение в первую очередь:
Некоторые проверки гипотез предполагают нормальное распределение данных. Я хочу знать, могу ли я использовать эти тесты.
Ответы:
Я не понимаю, почему вы беспокоитесь. Это явно не нормально - в этом случае графическое исследование мне кажется достаточным. У вас есть много наблюдений из того, что кажется хорошим чистым гамма-распределением. Просто иди с этим. колмогоров-смирнов это если надо - рекомендую справочную рассылку.
x=rgamma(46840,2.13,.0085);qqnorm(x);qqline(x,col='red')
hist(rgamma(46840,2.13,.0085))
boxplot(rgamma(46840,2.13,.0085))
источник