Количественная оценка сюжета QQ

10

С помощью qq-plot можно визуализировать, насколько похожи два распределения (например, визуализировать сходство распределения с нормальным распределением, а также сравнить два распределения произвольных данных). Существуют ли какие-либо статистические данные, которые генерируют более объективную числовую меру, отражающую их сходство (предпочтительно в нормализованной (0 <= x <= 1) форме)? Коэффициент Джини, например, используется в экономике при работе с кривыми Лоренца; есть ли что-то для QQ-графиков?

Ampleforth
источник

Ответы:

8

Как я уже сказал в ответ на ваш комментарий к вашему предыдущему вопросу, проверьте тест Колмогорова-Смирнова. Он использует максимальное абсолютное расстояние между двумя кумулятивными функциями распределения (альтернативно понимаемое как максимальное абсолютное расстояние кривой на графике QQ от линии 45 градусов) в качестве статистики. Тест KS можно найти в R с помощью команды ks.test()из библиотеки «stats». Вот больше информации о его использовании R

Чарли
источник
Обратите внимание, что (насколько я понимаю) тест KS предназначен для проверки эмпирических данных на основе априорного распределения. Он не подходит для сравнения двух эмпирических распределений, а также не подходит для сравнения эмпирических данных с априорным распределением, значения параметров которого были оценены из эмпирических данных.
Майк Лоуренс
4
@Mike, вы можете использовать тест KS для сравнения двух эмпирически полученных дистрибутивов, см. Предыдущий ответ Чарли и комментарии stats.stackexchange.com/questions/2918/lorenz-curve-qq-plot/…
Andy W
@Andy, ах, я взял пункт 3 из itl.nist.gov/div898/handbook/eda/section3/eda35g.htm как следствие того, что вы не можете сравнить два эмпирических CDF, но я вижу, что мое предположение не было подходящее. Полезно знать, спасибо!
Майк Лоуренс
2
Тем не менее, пункт 3 подразумевает, что вы не можете использовать KS для проверки того, поступают ли ваши данные из нормального распределения со средним и среднеквадратичным значением, оцененным по данным . Это распространенная ошибка среди студентов-психологов, с которыми я встречаюсь.
Стефан Коласса
1
(+1) Главный аспект этого ответа заключается в том, что статистику KS можно считывать непосредственно с графика QQ.
whuber
2

Недавно я использовал корреляцию между эмпирическим CDF и встроенным CDF для количественной оценки пригодности, и мне интересно, может ли этот подход быть также полезным в текущем случае, который, как я понимаю, включает сравнение двух наборов эмпирических данных. Интерполяция может быть необходима, если между наборами имеется разное количество наблюдений.

Майк Лоуренс
источник
Ваш документ включает в себя очень интересные цифры :)
CHL
@chi: Все они были созданы в R с использованием ggplot2. Это фантастическая система производства графики!
Майк Лоуренс
Что ты имеешь в виду под встроенным CDF?
Ampleforth
@Ampleforth, в этой статье я подгоняю распределение к эмпирическим данным, поэтому под «подогнанным CDF» я подразумевал теоретический CDF подогнанного распределения. Извините, я вижу, как я мог быть более ясным!
Майк Лоуренс
О, пожалуйста, не извиняйся. У меня не хватает статистики, и это единственная проблема здесь;) Также я не читал вашу статью, а только просматривал ваши графики, которые мне действительно понравились.
Ampleforth
1

Я бы сказал, что более или менее каноническим способом сравнения двух распределений будет критерий хи-квадрат. Однако статистика не нормализуется и зависит от того, как вы выбираете ячейки. Последний пункт, конечно, можно рассматривать как особенность, а не как ошибку: выбор корзин надлежащим образом позволяет, например, более внимательно искать сходство в хвостах, чем в середине распределений.

Стефан Коласса
источник
1

Довольно прямой мерой «близости» к линейности в графике QQ была бы статистика теста Шапиро-Франции (которая тесно связана с более известным Шапиро-Уилком и может рассматриваться как простое приближение к ней).

Статистика Шапиро-Франсии - это квадратная корреляция между упорядоченными значениями данных и ожидаемой статистикой нормального порядка (иногда обозначаемой как «теоретические квантили») - то есть она должна быть квадратом корреляции, которую вы видите на графике, довольно прямая сводная мера.

(Шапиро-Уилк похож, но учитывает корреляции между статистикой заказов; он аналогичен интерпретации Шапиро-Франции и в равной степени полезен в качестве резюме графика QQ.)

В любом случае, для краткого изложения того, что показывает график QQ, один из них может быть подходящим способом для подведения итогов графика.

1-W'

N1-W')NN(1-W')NNNжурнал(N)журнал(N)N

Glen_b - Восстановить Монику
источник