Интерпретация теста Шапиро-Вилка

29

Я довольно плохо знаком со статистикой, и мне нужна ваша помощь.
У меня есть небольшой образец, как показано ниже:

  H4U
  0.269
  0.357
  0.2
  0.221
  0.275
  0.277
  0.253
  0.127
  0.246

Я выполнил тест Шапиро-Уилка, используя R:

shapiro.test(precisionH4U$H4U)

и я получил следующий результат:

 W = 0.9502, p-value = 0.6921

Теперь, если я предполагаю, что уровень значимости 0,05, чем значение р, больше, чем альфа (0,6921> 0,05), и я не могу отвергнуть нулевую гипотезу о нормальном распределении, но позволяет ли я сказать, что выборка имеет нормальное распределение ?

Благодарность!

Якуб
источник

Ответы:

28

Нет - вы не можете сказать «выборка имеет нормальное распределение» или «выборка происходит из популяции, которая имеет нормальное распределение», но только «вы не можете отвергнуть гипотезу о том, что выборка происходит из популяции, которая имеет нормальное распределение».

На самом деле образец не имеет нормального распределения (см. Qqplot ниже), но вы не ожидаете, что это только образец. Вопрос о распределении основного населения остается открытым.

qqnorm( c(0.269, 0.357, 0.2, 0.221, 0.275, 0.277, 0.253, 0.127, 0.246) )

qqplot

Генри
источник
2
я думаю, что qqplot выглядит как обычно, вы можете попробовать qqnorm(rnorm(9))несколько раз ...
Любопытно,
2
@ Томас: Возможно, лучше сказать, что «qqplot выглядит так, как если бы он мог прийти от нормального населения». Вместо этого он мог прийти из дистрибутива с более тяжелыми хвостами.
Генри
Да, qqnorm(runif(9))может дать аналогичный результат. Так что мы не можем ничего сказать ...
Любопытно,
В чем разница между «выборка имеет нормальное распределение» и «выборка происходит из популяции, которая имеет нормальное распределение»?
Авраам
1
Нормальное распределение - это непрерывное распределение по всем реалам. Выборка (конечная или даже счетно бесконечная) не может сама иметь такого рода распределение, даже если она взята из совокупности, имеющей это распределение.
Генри
17

Неспособность отклонить нулевую гипотезу является признаком того, что у вас слишком малая выборка для того, чтобы уловить любые отклонения от нормы, которые у вас есть, но ваша выборка настолько мала, что даже весьма существенные отклонения от нормальности, вероятно, не будут обнаружены.

Тем не менее, проверка гипотезы в значительной степени не подходит для большинства случаев, когда люди используют критерий нормальности - вы на самом деле знаете ответ на вопрос, который вы проверяете - распределение населения по вашим данным не будет нормальным , (Это может быть довольно близко иногда, но на самом деле нормально?)

Вопрос, который вас должен волновать, заключается не в том, является ли распределение, из которого они взяты, нормальным (это не будет). Вопрос, который вас действительно должен волновать, больше напоминает «Отклонение от нормальности, которое я имею, окажет существенное влияние на мои результаты?». Если это потенциально проблема, вы можете рассмотреть анализ, который с меньшей вероятностью будет иметь эту проблему.

Glen_b - Восстановить Монику
источник
10

Учитывая, что вы довольно плохо знакомы со статистикой, я подозреваю, что вы думаете об этом, потому что это остатки от оценки среднего значения, и вы хотите знать, является ли допущение нормальности для оценок достоверности с использованием распределения.t

t тесты довольно устойчивы к нарушениям этого предположения, данные выглядят неопределенно нормальными на графике qq Генри, и тест Шапиро не показывает, что данные поступают из популяции с ненормальным распределением, поэтому я бы сказал, что тест уместен.t

Я также полагаю, что вы смотрите на пропорции, и в этом случае вы можете использовать биномиальное распределение, если вас беспокоит нарушение допущений.

Если вас заинтересовали тесты Шапиро, вы можете игнорировать все, что я только что сказал.

Томас Левайн
источник
Вы правильно поняли, я хотел знать, смогу ли я использовать t-критерий для моего образца. Благодарность!
Якуб
4

Как уже сказал Генри, нельзя сказать, что это нормально. Просто попробуйте выполнить следующую команду в R несколько раз:

shapiro.test(runif(9)) 

Это позволит проверить выборку из 9 чисел из равномерного распределения. Много раз значение p будет намного больше, чем 0,05 - это означает, что вы не можете сделать вывод, что распределение нормальное.

любознательный
источник
4

Я также смотрел на то, как правильно интерпретировать значение W в тесте Шапиро-Вилка, и в соответствии со статьей Эмиля О.В. Киркегарда « Значения W из теста Шапиро-Вилка, визуализированной с различными наборами данных », очень сложно что-либо сказать о нормальности распределение смотрит только на значение W

Как он заявляет в заключение:

Как правило, мы видим, что при большой выборке SW чувствительна к отклонениям от ненормальности. Если вылет очень маленький, то это не очень важно.

Мы также видим, что трудно уменьшить значение W, даже если кто-то намеренно пытается. Нужно проверить крайне ненормальное распределение, чтобы оно значительно упало ниже 0,99.

Смотрите оригинальную статью для получения дополнительной информации.

Денис Расулев
источник
1

Одним из важных вопросов, не упомянутых в предыдущем ответе, являются ограничения теста:

Тест имеет ограничения, наиболее важно то, что тест имеет смещение по размеру выборки . Чем больше выборка, тем выше вероятность получения статистически значимого результата.

Чтобы ответить на исходный вопрос (очень маленький размер выборки): см. Следующие статьи о лучших альтернативах, таких как график QQ и гистограмма для этого конкретного случая.

Stenemo
источник