В чем разница между вероятностными, PP-графиками и QQ-графиками при попытке анализа подобранного распределения по данным?
39
В чем разница между вероятностными, PP-графиками и QQ-графиками при попытке анализа подобранного распределения по данным?
Ответы:
Как отмечает @ vector07 , вероятностный график - это более абстрактная категория, членами которой являются pp-plots и qq-plots. Таким образом, я буду обсуждать различие между двумя последними. Лучший способ понять различия - это подумать о том, как они построены, и понять, что вам нужно распознать разницу между квантилями распределения и пропорцией распределения, через которое вы прошли, достигнув определенного квантиля. Вы можете увидеть взаимосвязь между ними, построив график кумулятивной функции распределения (CDF) распределения. Например, рассмотрим стандартное нормальное распределение:
Мы видим, что приблизительно 68% оси Y (область между красными линиями) соответствует 1/3 оси X (область между синими линиями). Это означает, что когда мы используем пропорцию распределения, через которое мы прошли, чтобы оценить соответствие между двумя распределениями (то есть мы используем pp-plot), мы получим большое разрешение в центре распределений, но меньше при хвосты. С другой стороны, когда мы используем квантили для оценки соответствия между двумя распределениями (то есть используем qq-plot), мы получим очень хорошее разрешение в хвостах, но меньше в центре. (Поскольку аналитики данных, как правило, больше заботятся о хвостах распределения, что, например, окажет большее влияние на вывод, qq-графики гораздо более распространены, чем pp-графики.)
Чтобы увидеть эти факты в действии, я пройдусь по построению pp-сюжета и qq-сюжета. (Я также проходил через построение qq-сюжета в устной / более медленной форме: QQ-plot не соответствует гистограмме .) Я не знаю, используете ли вы R, но, надеюсь, это самоочевидно:
К сожалению, эти графики не очень отличительны, потому что данных мало, и мы сравниваем истинную нормаль с правильным теоретическим распределением, поэтому нет ничего особенного, чтобы увидеть ни в центре, ни в хвостах распределения. Чтобы лучше продемонстрировать эти различия, я строю (жирнохвостый) t-распределение с 4 степенями свободы и бимодальное распределение ниже. Толстые хвосты намного более характерны для qq-графика, тогда как бимодальность более характерна для pp-графика.
источник
Вот определение из v8doc.sas.com :
В тексте они также упоминают:
Ссылка :
SAS Institute Inc., SAS OnlineDoc®, версия 8, Cary, NC: SAS Institute Inc., 1999
источник