Я прочитал достаточно потоков на QQplots здесь, чтобы понять, что QQplot может быть более информативным, чем другие тесты нормальности. Тем не менее, я неопытен в интерпретации QQplots. Я много гуглил; Я нашел много графиков ненормальных QQplots, но нет четких правил, как их интерпретировать, кроме того, что кажется сравнением с известными распределениями плюс «интуиция».
Я хотел бы знать, есть ли у вас (или вы знаете) какое-либо практическое правило, которое поможет вам принять решение о ненормальности.
Этот вопрос возник, когда я увидел эти два графика:
Я понимаю, что решение о ненормальности зависит от данных и того, что я хочу с ними делать; однако мой вопрос: в общем, когда наблюдаемые отклонения от прямой линии являются достаточным доказательством, чтобы сделать необоснованным приближение нормальности?
Что бы ни стоило, тест Шапиро-Уилка не смог отвергнуть гипотезу ненормальности в обоих случаях.
источник
Ответы:
Обратите внимание, что Шапиро-Уилк является мощным тестом нормальности.
На самом деле лучший подход - это иметь хорошее представление о том, насколько чувствительна любая процедура, которую вы хотите использовать, к различным видам ненормальности (насколько она ненормальна, чтобы она влияла на ваш вывод больше, чем вы могу принять).
Неформальный подход к просмотру графиков состоял бы в том, чтобы сгенерировать несколько наборов данных, которые на самом деле являются нормальными, того же размера выборки, что и у вас - (например, скажем, 24 из них). Разместите ваши реальные данные среди сетки таких графиков (5x5 в случае 24 случайных наборов). Если это не особенно необычный вид (скажем, худший), то он вполне соответствует нормам.
На мой взгляд, набор данных «Z» в центре выглядит примерно наравне с «o» и «v» и, возможно, даже «h», тогда как «d» и «f» выглядят несколько хуже. «Z» - это реальные данные. Хотя я на мгновение не верю, что это на самом деле нормально, это не особенно необычно, когда вы сравниваете это с обычными данными.
[Редактировать: я только что провел случайный опрос - ну, я спросил свою дочь, но в довольно случайное время - и ее выбор для наименее, как прямая линия была "d". Так что 100% опрошенных думали, что «д» был самым странным.]
Более формальным подходом было бы сделать тест Шапиро-Франсии (который эффективно основан на корреляции в графике QQ), но (а) он даже не такой мощный, как тест Шапиро-Вилка, и (б) формальное тестирование отвечает вопрос (иногда), что вы уже должны знать ответ на какой-либо вопрос (распределение, из которого были получены ваши данные, не совсем нормальный), вместо того, чтобы ответить на вопрос, на который вам нужно ответить (насколько это важно?).
По запросу, код для вышеуказанного дисплея. Ничего сложного:
(По крайней мере, с середины 80-х годов я делал наборы подобных графиков. Как вы можете интерпретировать графики, если вы не знакомы с тем, как они ведут себя, когда предположения верны - а когда нет?)
Узнать больше:
источник
opar=par(); par(mfrow=c(5,5)); par(mar=c(0.5,0.5,0.5,0.5)); par(oma=c(1,1,1,1))
затем в циклеi
я сделалqqnorm(xz[,i],axes=FALSE,ylab= colnames(xz)[i],xlab="",main=""); qqline(xz[,i],col=2,lty=2); box("figure", col="darkgreen")
потом, в конце,par(opar)
чтобы установить параметры обратно к тому, что они были раньше. Это оставляет некоторые детали, но вы должны быть в состоянии управлять оттуда.Не противореча ни одному из превосходных ответов здесь, у меня есть одно эмпирическое правило, которое часто (но не всегда) является решающим. (Проходящий комментарий в ответе @Dante тоже кажется уместным.)
Иногда кажется слишком очевидным, чтобы заявить, но вот вы здесь.
Я с радостью называю дистрибутив ненормальным, если думаю, что могу предложить другое описание, которое явно более уместно.
Таким образом, если в хвостах нормального квантиль-квантильного графика есть небольшая кривизна и / или неровность, но приблизительная прямолинейность на гамма-квантиль-квантильном графике, я могу сказать: «Это не очень хорошо охарактеризовано как нормальное; это больше похоже на гамму ».
Не случайно это перекликается со стандартным аргументом в истории и философии науки, не говоря уже об общей научной практике, о том, что гипотеза наиболее четко и эффективно опровергается, когда у вас есть лучшая, чтобы поставить ее на место. (Подсказка: намеки на Карла Поппера, Томаса С. Куна и т. Д.)
Это правда, что для новичков, да и для всех, существует плавная градация между «Это нормально, за исключением незначительных неровностей, которые мы всегда ожидаем» и «Это очень отличается от нормы, за исключением некоторого грубого сходства, которое мы часто получаем ».
Конверты с доверием (подобные) и несколько смоделированных образцов могут сильно помочь, и я использую и рекомендую оба, но это также может помочь (Между прочим, сравнение с портфелем симуляций является повторным недавним переосмыслением, но восходит, по крайней мере, к Шухарту в 1931 году.)
Я повторю мою верхнюю строчку. Иногда кажется, что ни одна торговая марка не подходит, и вам нужно двигаться вперед как можно лучше.
источник
Как сказал @Glen_b, вы можете сравнить свои данные с данными, которые, как вы уверены, нормальные - данные, которые вы сгенерировали сами, а затем положиться на свои интуитивные ощущения :)
Ниже приведен пример из OpenIntro статистического учебника
Давайте посмотрим на этот график QQ:
Это нормально? Давайте сравним это с нормально распределенными данными:
Этот выглядит лучше, чем наши данные, поэтому наши данные не кажутся нормальными. Давайте удостоверимся, симулируя это несколько раз и рисуя рядом
Таким образом, наше внутреннее чувство говорит нам, что образец вряд ли будет распределен нормально.
Вот код R, чтобы сделать это
источник
Как правило, тесты, которые рассматривают любое другое распределение в качестве альтернативной гипотезы, имеют низкую мощность по сравнению с тестами с правильной альтернативной гипотезой (см., Например, 1 и 2 ).
Существует интересный R-пакет с реализацией нескольких непараметрических тестов нормальности ('nortest',
http://cran.r-project.org/web/packages/nortest/index.html
). Как упоминалось в вышеприведенных работах, критерий отношения правдоподобия с соответствующей альтернативной гипотезой является более мощным, чем эти тесты.Идея, упомянутая @Glen_b о сравнении вашей выборки со случайными выборками из вашей (подобранной) модели, упоминается во втором моем справочнике. Они называются «QQ-Envelopes» или «QQ-Fans». Это косвенно требует наличия модели для генерации данных из и, следовательно, альтернативной гипотезы.
источник
источник