Я работаю с небольшим набором данных (21 наблюдение) и имею следующий нормальный график QQ в R:
Видя, что сюжет не поддерживает нормальность, что я могу сделать вывод о базовом распределении? Мне кажется, что распределение, более искаженное вправо, было бы лучше, верно? Кроме того, какие еще выводы мы можем сделать из данных?
Ответы:
Если значения лежат вдоль линии, распределение имеет ту же форму (вплоть до местоположения и масштаба), что и теоретическое распределение, которое мы предположили.
Локальное поведение : при просмотре отсортированных выборочных значений на оси Y и (приблизительных) ожидаемых квантилей на оси X мы можем определить, насколько локально отличаются значения в некотором разделе графика от общего линейного тренда, посмотрев, значения более или менее сконцентрированы, чем теоретическое распределение предположило бы в этом разделе графика:
Как мы видим, менее сконцентрированные точки увеличивают больше и более концентрированные точки, чем предполагаемое, увеличиваются менее быстро, чем можно предположить по общей линейной зависимости, и в крайних случаях соответствуют разрыву в плотности образца (показан как почти вертикальный скачок) или всплеск постоянных значений (значения выровнены по горизонтали). Это позволяет нам определить тяжелый хвост или легкий хвост и, следовательно, асимметрию, большую или меньшую, чем теоретическое распределение, и так далее.
Общий вид:
Вот как в среднем выглядят QQ-графики (для конкретных вариантов распределения) :
Но случайность имеет тенденцию запутывать вещи, особенно с небольшими выборками:
Вы также можете найти предложения здесь полезно при попытке решить , сколько вы должны беспокоиться о конкретной сумме кривизны или wiggliness.
Более подходящее руководство для интерпретации в целом также включало бы дисплеи с меньшим и большим размерами выборки.
источник
Я сделал блестящее приложение, чтобы помочь интерпретировать нормальный сюжет QQ. Попробуйте эту ссылку.
В этом приложении вы можете настроить асимметрию, хвостик (куртоз) и модальность данных, а также увидеть, как меняются гистограмма и график QQ. И наоборот, вы можете использовать его так, как указано в графике QQ, а затем проверить, какой должна быть асимметрия и т. Д.
Для получения дополнительной информации см. Документацию в нем.
Я понял, что у меня недостаточно свободного места, чтобы предоставить это приложение онлайн. По желанию, я предоставлю все три куски кода:
sample.R
,server.R
иui.R
здесь. Те, кто заинтересован в запуске этого приложения, могут просто загрузить эти файлы в Rstudio и запустить его на своем ПК.sample.R
Файл:server.R
Файл:Наконец,
ui.R
файл:источник
Очень полезное (и интуитивное) объяснение дает проф. Филипп Риголле на курсе MIT MOOC: 18.650 Статистика по приложениям, осень 2016 г. - смотрите видео за 45 минут
https://www.youtube.com/watch?v=vMaKx9fmJHE
Я грубо скопировал его схему, которую я храню в своих заметках, так как считаю ее очень полезной.
В примере 1 на верхнем левом графике мы видим, что в правом хвосте эмпирический (или выборочный) квантиль меньше теоретического квантиля
Qe <Qt
источник
Так как эта тема считается окончательной статьей StackExchange «как интерпретировать нормальный график qq», я хотел бы указать читателям на приятную, точную математическую связь между нормальным графиком qq и статистикой избыточного эксцесса.
Вот:
https://stats.stackexchange.com/a/354076/102879
Краткое (и слишком упрощенное) резюме приводится ниже (см. Ссылку для более точных математических утверждений): вы можете фактически увидеть избыточный эксцесс в нормальном графике qq как среднее расстояние между квантилями данных и соответствующими теоретическими нормальными квантилями, взвешенными по расстоянию от данных до среднего. Таким образом, когда абсолютные значения в хвостах графика qq обычно сильно отклоняются от ожидаемых нормальных значений в экстремальных направлениях, вы получаете положительный избыточный эксцесс.
Поскольку эксцесс является средним из этих отклонений, взвешенных по расстояниям от среднего значения, значения вблизи центра графика qq мало влияют на эксцесс. Следовательно, избыточный эксцесс не связан с центром распределения, где находится «пик». Скорее избыточный эксцесс почти полностью определяется сравнением хвостов распределения данных с нормальным распределением.
источник