PP-графики и QQ-графики

39

В чем разница между вероятностными, PP-графиками и QQ-графиками при попытке анализа подобранного распределения по данным?

кай
источник
4
Кажется, википедия может помочь вам с этим: вероятностный график . QQ сюжет , PP сюжет . Если у вас есть более конкретный вопрос, пожалуйста, уточните!
vector07
Спасибо, я думаю, что я получил заговор PP и заговор вероятности перепутанный!
Кей

Ответы:

41

Как отмечает @ vector07 , вероятностный график - это более абстрактная категория, членами которой являются pp-plots и qq-plots. Таким образом, я буду обсуждать различие между двумя последними. Лучший способ понять различия - это подумать о том, как они построены, и понять, что вам нужно распознать разницу между квантилями распределения и пропорцией распределения, через которое вы прошли, достигнув определенного квантиля. Вы можете увидеть взаимосвязь между ними, построив график кумулятивной функции распределения (CDF) распределения. Например, рассмотрим стандартное нормальное распределение:

введите описание изображения здесь

Мы видим, что приблизительно 68% оси Y (область между красными линиями) соответствует 1/3 оси X (область между синими линиями). Это означает, что когда мы используем пропорцию распределения, через которое мы прошли, чтобы оценить соответствие между двумя распределениями (то есть мы используем pp-plot), мы получим большое разрешение в центре распределений, но меньше при хвосты. С другой стороны, когда мы используем квантили для оценки соответствия между двумя распределениями (то есть используем qq-plot), мы получим очень хорошее разрешение в хвостах, но меньше в центре. (Поскольку аналитики данных, как правило, больше заботятся о хвостах распределения, что, например, окажет большее влияние на вывод, qq-графики гораздо более распространены, чем pp-графики.)

Чтобы увидеть эти факты в действии, я пройдусь по построению pp-сюжета и qq-сюжета. (Я также проходил через построение qq-сюжета в устной / более медленной форме: QQ-plot не соответствует гистограмме .) Я не знаю, используете ли вы R, но, надеюсь, это самоочевидно:

set.seed(1)                           # this makes the example exactly reproducible
N = 10                                # I will generate 10 data points
x = sort(rnorm(n=N, mean=0, sd=1))    #  from a normal distribution w/ mean 0 & SD 1
n.props = pnorm(x, mean(x), sd(x))    # here I calculate the probabilities associated
                                      #  w/ these data if they came from a normal 
                                      #  distribution w/ the same mean & SD

   # I calculate the proportion of x we've gone through at each point
props = 1:N / (N+1)
n.quantiles = qnorm(props, mean=mean(x), sd=sd(x))  # this calculates the quantiles (ie
                                                    #  z-scores) associated w/ the props
my.data = data.frame(x=x, props=props,              # here I bundle them together
                     normal.proportions=n.props, 
                     normal.quantiles=n.quantiles)
round(my.data, digits=3)                            # & display them w/ 3 decimal places
#         x        props  normal.proportions  normal.quantiles
# 1  -0.836        0.091               0.108            -0.910
# 2  -0.820        0.182               0.111            -0.577
# 3  -0.626        0.273               0.166            -0.340
# 4  -0.305        0.364               0.288            -0.140
# 5   0.184        0.455               0.526             0.043
# 6   0.330        0.545               0.600             0.221
# 7   0.487        0.636               0.675             0.404
# 8   0.576        0.727               0.715             0.604
# 9   0.738        0.818               0.781             0.841
# 10  1.595        0.909               0.970             1.174

введите описание изображения здесь

К сожалению, эти графики не очень отличительны, потому что данных мало, и мы сравниваем истинную нормаль с правильным теоретическим распределением, поэтому нет ничего особенного, чтобы увидеть ни в центре, ни в хвостах распределения. Чтобы лучше продемонстрировать эти различия, я строю (жирнохвостый) t-распределение с 4 степенями свободы и бимодальное распределение ниже. Толстые хвосты намного более характерны для qq-графика, тогда как бимодальность более характерна для pp-графика.

введите описание изображения здесь введите описание изображения здесь

Gung - Восстановить Монику
источник
14
@AleksandrH Мы искренне ценим вашу заботу о студентах. Тем не менее, ваше неявное предположение, что этот сайт предназначен только для начинающих студентов, неверно; и ваша инсинуация о том, что «многословные ответы» не подходят для учащихся, просто не соответствует действительности, что подтверждают многие «многословные» ответы на этом сайте. Более конструктивным способом выражения вашей жалобы является пример: покажите нам, как улучшить наши ответы, и вдохновите нас подражать вам, разместив здесь ответ, который соответствует вашим стандартам для удовлетворения потребностей новых студентов.
whuber
12

Вот определение из v8doc.sas.com :

График PP сравнивает эмпирическую интегральную функцию распределения набора данных с заданной теоретической интегральной функцией F (·). График QQ сравнивает квантили распределения данных с квантилями стандартизированного теоретического распределения из указанного семейства распределений.

В тексте они также упоминают:

  • различия относительно способа построения и интерпретации графиков PP и QQ.
  • преимущества использования того или другого, относительно сравнения эмпирических и теоретических распределений.

Ссылка :

SAS Institute Inc., SAS OnlineDoc®, версия 8, Cary, NC: SAS Institute Inc., 1999

Андре Силва
источник