Я построил это после теста на нормальность Шапиро-Вилка. Тест показал, что вполне вероятно, что население нормально распределено. Однако как увидеть это «поведение» на этом сюжете?
ОБНОВИТЬ
Простая гистограмма данных:
ОБНОВИТЬ
Тест Шапиро-Вилка говорит:
Ответы:
Нет; это не показывало это.
Тесты гипотез не говорят вам, насколько вероятен ноль. На самом деле вы можете поспорить, что это ноль ложно.
График QQ не дает четкого указания на ненормальность (график довольно прямой); возможно, левый хвост немного короче, чем вы ожидаете, но это не имеет большого значения.
Гистограмма как есть, вероятно, тоже ничего не говорит; это также намекает на немного более короткий левый хвост. Но смотрите здесь
Распределение населения по вашим данным не будет нормальным. Тем не менее, график QQ показывает, что нормальность, вероятно, является достаточно хорошим приближением.
Если бы размер выборки был не слишком мал, отсутствие отбраковки Шапиро-Вилка, вероятно, сказало бы то же самое.
Обновление: ваша правка, включающая фактическое значение p Шапиро-Уилка, важна, потому что на самом деле это будет означать, что вы отклоните ноль на типичных значимых уровнях. Этот тест указывает на то, что ваши данные обычно не распределяются, и умеренная асимметрия, указанная на графиках, является, вероятно, тем, что выявляется тестом. Для типичных процедур, которые могут предполагать нормальность самой переменной (t-критерий с одной выборкой - тот, который приходит на ум), при том, что представляется довольно большим размером выборки, эта небольшая ненормальность почти не будет иметь значения при все - одна из проблем, связанных с проверкой соответствия, состоит в том, что они с большей вероятностью отклонят только тогда, когда это не имеет значения (когда размер выборки достаточно велик, чтобы обнаружить некоторую скромную ненормальность); Точно так же они, скорее всего, не смогут отказаться, когда это имеет наибольшее значение (когда размер выборки невелик).
источник
Если данные распределены нормально, точки на графике QQ-норма лежат на прямой диагональной линии. Вы можете добавить эту строку в свой график QQ с помощью команды
qqline(x)
, гдеx
- вектор значений.Примеры нормального и ненормального распределения:
Нормальное распределение
QQ-нормальный график с линией:
Отклонения от прямой минимальны. Это указывает на нормальное распределение.
Гистограмма:
Ненормальное (гамма) распределение
QQ-нормальный сюжет:
Точки четко следуют другой форме, чем прямая линия.
Гистограмма подтверждает ненормальность. Распределение имеет не колоколообразный, а положительно перекос (т. Е. Большинство точек данных находится в нижней половине). Гистограммы нормальных распределений показывают самую высокую частоту в центре распределения.
источник
qqPlot
функцию вcar
пакете.Некоторые инструменты для проверки правильности предположения о нормальности в R
источник
Хотя рекомендуется визуально проверить, соответствует ли ваша интуиция результатам какого-либо теста, нельзя ожидать, что это будет легко каждый раз. Если люди, пытающиеся обнаружить бозон Хиггса, будут доверять своим результатам только в том случае, если смогут визуально оценить их, им понадобится очень острый взгляд.
Особенно с большими наборами данных (и, таким образом, как правило, с увеличением мощности), статистика, как правило, улавливает наименьшие различия, даже когда они едва различимы невооруженным глазом.
При этом для нормальности ваш QQ-график должен показывать прямую линию: я бы сказал, что нет. Есть четкие изгибы в хвостах, и даже около середины есть некоторое волнение. Визуально, я все еще могу сказать (в зависимости от цели проверки нормальности), что эти данные «достаточно» нормальны.
Однако обратите внимание: для большинства целей, где вы хотите проверить нормальность, вам нужна только нормальность средних значений, а не нормальность наблюдений, поэтому для спасения вас может быть достаточно центральной предельной теоремы. Кроме того: в то время как нормальность часто является предположением о том, что вам необходимо проверять «официально», многие тесты оказались довольно нечувствительными к невыполнению этого предположения.
источник
Мне нравится версия из 'R' библиотеки 'car', потому что она обеспечивает не только центральную тенденцию, но и доверительные интервалы. Это дает визуальное руководство, чтобы помочь подтвердить, соответствует ли поведение данных гипотетическому распределению.
некоторые ссылки:
источник