В R у меня есть выборка из 348 мер, и я хочу знать, могу ли я предположить, что она обычно распространяется для будущих тестов.
По сути, следуя другому ответу из стека , я смотрю на график плотности и график QQ:
plot(density(Clinical$cancer_age))
qqnorm(Clinical$cancer_age);qqline(Clinical$cancer_age, col = 2)
У меня нет большого опыта в области статистики, но они выглядят как примеры нормальных распределений, которые я видел.
Затем я запускаю тест Шапиро-Вилка:
shapiro.test(Clinical$cancer_age)
> Shapiro-Wilk normality test
data: Clinical$cancer_age
W = 0.98775, p-value = 0.004952
Если я правильно истолковываю это, оно говорит мне, что безопасно отвергнуть нулевую гипотезу, которая заключается в том, что распределение нормальное.
Однако я столкнулся с двумя сообщениями в стеке ( здесь и здесь ), которые сильно подрывают полезность этого теста. Похоже, что если выборка большая (348 считается большой?), Она всегда скажет, что распределение не нормальное.
Как мне все это интерпретировать? Должен ли я придерживаться графика QQ и предположить, что мое распределение нормальное?
источник
Ответы:
У вас нет проблем здесь. Ваши данные могут быть немного ненормальными, но это достаточно нормально, чтобы это не создавало проблем. Многие исследователи проводят статистические тесты, предполагая нормальность с гораздо меньшими нормальными данными, чем те, которые у вас есть.
Я бы доверял твоим глазам. Графики плотности и QQ выглядят разумно, несмотря на некоторые небольшие положительные перекосы на хвостах. На мой взгляд, вам не нужно беспокоиться о ненормальности этих данных.
У вас есть N около 350, и значения р очень зависят от размеров выборки. С большой выборкой, почти все может быть значительным. Это обсуждалось здесь.
Есть несколько невероятных ответов на этот очень популярный пост, который в основном приходит к выводу, что проведение теста значимости нулевой гипотезы для ненормальности «по существу бесполезно». Принятый ответ на этот пост является невероятной демонстрацией того, что даже когда данные были получены в результате почти гауссовского процесса, достаточно большой размер выборки делает ненормальный тест значимым.
Извините, я понял, что связался с постом, который вы упомянули в исходном вопросе. Тем не менее мой вывод остается в силе: ваши данные не настолько ненормальны, что это должно создавать проблемы.
источник
Ваше распределение не нормально. Посмотрите на хвосты (или их отсутствие). Ниже приведено то, что вы ожидаете от обычного графика QQ.
Обратитесь к этому сообщению о том, как интерпретировать различные графики QQ.
Имейте в виду, что, хотя технически распределение не может быть нормальным, оно может быть достаточно нормальным, чтобы претендовать на алгоритмы, которые требуют нормальности.
источник