График QQ не соответствует гистограмме

12

У меня есть гистограмма, плотность ядра и соответствующее нормальное распределение финансовых отчетов, которые превращаются в убытки (знаки меняются), и обычный график QQ этих данных:

http://tinypic.com/r/34ocwvr/6

График QQ ясно показывает, что хвосты установлены неправильно. Но если я взгляну на гистограмму и установленное нормальное распределение (синее), даже значения около 0,0 не будут корректно установлены. Таким образом, график QQ показывает, что только хвосты не соответствуют должным образом, но ясно, что все распределение не соответствует правильно. Почему это не отображается на графике QQ?

Стат Тистициан
источник
10
Синяя кривая слева соответствует гипотетической линии «наилучшего соответствия» справа. Линия справа - не самая подходящая линия: она лучше всего подходит для средних значений в распределении. Если бы вы поместили «кривую колокола» в средние две трети гистограммы, а не в целом, эта кривая приблизилась бы к следованию за пиком и круто наклонными сторонами, но тогда это было бы далеко слишком низко в плечах и хвостах. Это именно то, что показывает линия на графике qq: эти графики полностью согласуются; это припадки, которые отличаются.
whuber

Ответы:

11

+1 к @NickSabbe, поскольку «сюжет просто говорит вам, что« что-то не так »», что часто является лучшим способом использования qq-сюжета (поскольку может быть трудно понять, как их интерпретировать). Однако можно научиться интерпретировать qq-сюжет, подумав о том, как его создать.

Вы начнете с сортировки своих данных, затем начнете отсчитывать свой путь от минимального значения, принимая каждое из них в качестве равного процента. Например, если у вас было 20 точек данных, при подсчете первого (минимального) вы сказали бы себе: «Я насчитал 5% моих данных». Вы будете следовать этой процедуре, пока не дойдете до конца, после чего вы пройдете 100% своих данных. Эти процентные значения могут затем сравниваться с такими же процентными значениями из соответствующей теоретической нормы (то есть нормали с тем же средним и SD).

Когда вы начнете строить их, вы обнаружите, что у вас есть проблемы с последним значением, которое составляет 100%, потому что, когда вы прошли 100% от теоретической нормы, вы находитесь в бесконечности. Эта проблема решается путем добавления небольшой константы к знаменателю в каждой точке ваших данных перед вычислением процентов. Типичным значением будет добавление 1 к знаменателю; например, вы назвали бы свою первую (из 20) точку данных 1 / (20 + 1) = 5%, а ваша последняя будет 20 / (20 + 1) = 95%. Теперь, если вы построите эти точки против соответствующей теоретической нормы, у вас будет pp-plot(для построения вероятностей против вероятностей). Такой график, скорее всего, покажет отклонения между вашим распределением и нормалью в центре распределения. Это связано с тем, что 68% нормального распределения находится в пределах +/- 1 SD, поэтому pp-графики имеют отличное разрешение и плохое разрешение в других местах. (Подробнее об этом можно прочитать здесь: « PP-графики» и «QQ-графики» .)

Часто нас больше всего беспокоит то, что происходит в хвостах нашего дистрибутива. Чтобы получить лучшее разрешение там (и, следовательно, худшее разрешение в середине), мы можем вместо этого построить qq-график . Мы делаем это, беря наши наборы вероятностей и пропуская их через обратное к CDF нормального распределения (это похоже на чтение z-таблицы в конце книги статистики в обратном направлении - вы читаете с вероятностью и читаете z- Гол). Результатом этой операции являются два набора квантилей , которые могут быть нанесены друг на друга аналогичным образом.

@whuber прав в том, что контрольная линия строится впоследствии (обычно) путем нахождения наилучшей подходящей линии через средние 50% точек (т. е. от первого квартиля до третьего). Это сделано для облегчения чтения сюжета. Используя эту линию, вы можете интерпретировать график как показывающий, отклоняются ли квантили вашего распределения от истинной нормы, когда вы движетесь в хвосты. (Обратите внимание, что положение точек дальше от центра на самом деле не зависит от тех, которые находятся ближе к нему; поэтому тот факт, что в вашей конкретной гистограмме хвосты сходятся вместе после того, как «плечи» различаются, не означает, что квантили теперь опять то же самое.)

Вы можете интерпретировать qq-график аналитически, считая значения, считанные из осей, сравниваемых для данной нанесенной точки. Если данные были хорошо описаны нормальным распределением, значения должны быть примерно одинаковыми. Например, возьмем крайнюю точку в крайнем левом нижнем углу: его значение находится где-то за , но его значение только немного за , поэтому оно намного дальше, чем должно быть. В общем, простая рубрика для интерпретации qq-сюжета состоит в том, что если данный хвост отворачивается против часовой стрелки от линии отсчета, то в этом хвосте вашего распределения будет больше данных, чем в теоретической нормали, и если хвост закручивается там по часовой стрелке является менее- 3 у - 0,2x3y.2данные в этом хвосте вашего распределения, чем в теоретической норме. Другими словами:

  • если оба хвоста крутятся против часовой стрелки, у вас тяжелые хвосты ( лептокуртоз ),
  • если оба хвоста закручиваются по часовой стрелке, у вас есть легкие хвосты (platykurtosis),
  • если ваш правый хвост поворачивается против часовой стрелки, а левый - по часовой стрелке, у вас есть перекос вправо
  • если ваш левый хвост поворачивается против часовой стрелки, а ваш правый хвост поворачивается по часовой стрелке, вы наклонены влево
Gung - Восстановить Монику
источник
Я нахожу такие рубрики менее чем удовлетворительными. Одна из них заключается в том, что они не имеют прямой связи с принципами, лежащими в основе сюжета: их нужно запоминать отдельно (и могут быть полностью сбиты с толку ошибочной памятью). Другое (в данном случае) то, что это слишком сложно, чтобы быть надежно полезным. Еще одна проблема заключается в том, что отсутствие стандартизации в том, как нарисованы такие графики, может сделать этот метод некорректным при применении к графику qq, выполненному другой процедурой. Но сюжеты qq легко интерпретировать: посмотрите на мою попытку объяснить это на полпути. Quantdec.com/envstats/notes/class_03/probability.htm .
whuber
5

Проще говоря: график QQ показывает ранжирование в эмпирическом распределении по сравнению с ожидаемым распределением. В вашем случае (а это на самом деле довольно часто; всегда с симметричным распределением) ранги около середины будут похожи между ожидаемым и эмпирическим, следовательно, QQ-график находится близко к линии там.

На самом деле не так просто идентифицировать «странные» наблюдения на основе их положения в QQ-графике: график просто говорит вам, что «что-то не так», и если вы знаете больше о данных / распределениях, вы можете узнать где проблемы.

Ник Саббе
источник
1
Ник, я бы сделал противоположный вывод: график qq значительно облегчает идентификацию и оценку «странных» результатов по сравнению с массивом данных, в то время как гистограмма имеет тенденцию затенять многое из того, что показывает график qq. Вопрос здесь не в том, близок ли график qq к линии: он касается того, какая линия была выбрана программным обеспечением в качестве эталона для графика! (Я подозреваю, что Rего подгонка основывается на некоторых умеренных процентилях, таких как квартили, хотя очевидно, что подгонка к гистограмме была основана на совпадающих моментах.)
whuber
1
@whuber: Лично мне нравится видеть оба, если это возможно (в основном, потому что я «читаю» гистограммы легче, чем QQ-графики). Но вы правы, и я исправлюсь.
Ник Сабб,
И вы совершенно правы, что эти две техники дополняют друг друга. Например, бимодальность легче обнаружить (и количественно оценить) на гистограмме, чем на графике qq. Я считаю, что с практикой и гистограммы, и графики qq становятся легко читаемыми. Графики QQ могут занять немного больше времени для изучения только потому, что они не имеют стандартной формы представления: вам всегда нужно проверять, какая ось является значением, а какой квантиль, а иногда квантили конвертируются в «эквивалентные значения» (вместо стандартизированный).
whuber