Я хочу оценить точность тестов нормальности для разных размеров выборки в R (я понимаю, что тесты нормальности могут вводить в заблуждение ). Например, чтобы посмотреть на тест Шапиро-Уилка, я провожу следующую симуляцию (а также нанесение на график результатов) и ожидаю, что с увеличением размера выборки вероятность отклонения нуля уменьшается:
n <- 1000
pvalue_mat <- matrix(NA, ncol = 1, nrow = n)
for(i in 10:n){
x1 <- rnorm(i, mean = 0, sd = 1)
pvalue_mat[i,] <- shapiro.test(x1)$p.value
}
plot(pvalue_mat)
Я бы подумал, что по мере роста размера выборки частота отбраковки должна быть ниже, однако она кажется довольно равномерной. Я думаю, что я неправильно понимаю это - любые мысли приветствуются.
r
simulation
power-analysis
normality-assumption
user94759
источник
источник
Ответы:
Вы моделируете по нулевой гипотезе (нормальное распределение), поэтому уровень отклонения будет стремиться к уровню значимости, как и ожидалось. Чтобы оценить мощность, вам нужно смоделировать при любом ненормальном распределении. Есть бесконечные возможности / сценарии (например, гамма-распределения с увеличением асимметрии, t-распределение с уменьшением df и т. Д.) На выбор, в зависимости от объема вашего исследования.
источник
Понимание анализа мощности статистических тестов гипотез можно улучшить, выполнив некоторые и внимательно изучив результаты.
Второй критерий требует, чтобы мы указали, каким образом и насколько ноль не соответствует действительности. В случае с учебниками это легко, потому что альтернативы ограничены по объему и четко определены. С тестами распределения, такими как Shapiro-Wilk, альтернатива гораздо более расплывчата: они «ненормальные». Таким образом, при выборе среди тестов распределения аналитик, вероятно, должен будет провести свое собственное одноразовое исследование мощности, чтобы оценить, насколько хорошо тесты работают в отношении более конкретных альтернативных гипотез, которые имеют отношение к рассматриваемой проблеме.
R
rdist
имя функции для получения случайной выборки из некоторого распределенияn
Размер образцов на заказrdist
n.iter
количество таких образцов для получения...
rdist
Остальные параметры управляют отображением результатов; они включены в основном для удобства создания цифр в этом ответе.
После указания параметров этот код также занимает всего одну строку. Это дает следующий вывод:
Небольшое изучение этой таблицы дает хорошее представление о силе. Я хотел бы обратить внимание на его наиболее важные и полезные аспекты:
breaks
sim
Забавно, что так много можно почерпнуть из того, что фактически составляет три строки кода: одну для имитации выборок iid из указанного дистрибутива, одну, чтобы применить это к массиву нулевых распределений, и третью, чтобы применить его к массив альтернативных распределений. Это три шага, которые входят в любой анализ мощности: остальное - это просто суммирование и интерпретация результатов.
источник
(Больше, чем комментарий, возможно, не полный ответ)
Оставляя в стороне соображения о предвзятых тестах (которые не являются чем-то необычным с точки зрения пригодности, поэтому стоит упомянуть), есть три ситуации, связанные с уровнем отклонения, которые можно рассмотреть:
1) коэффициент отклонения при моделировании от нуля (как вы, кажется, делаете в своем вопросе)
2) коэффициент отклонения при моделировании из некоторой альтернативы
Здесь показатель отклонения должен увеличиваться с увеличением n .
3) коэффициент отклонения для некоторого сбора реальных данных
Практически, ноль никогда не бывает истинным, и реальные данные будут иметь некоторую смесь величин ненормальности (как измерено статистикой теста). Если степень ненормальности не связана с размером выборки, коэффициент отклонения должен увеличиваться с увеличением n .
Так что на самом деле ни в одной из этих ситуаций мы не должны видеть снижение количества браков с размером выборки.
источник