У меня есть гистограмма, плотность ядра и соответствующее нормальное распределение финансовых отчетов, которые превращаются в убытки (знаки меняются), и обычный график QQ этих данных:
График QQ ясно показывает, что хвосты установлены неправильно. Но если я взгляну на гистограмму и установленное нормальное распределение (синее), даже значения около 0,0 не будут корректно установлены. Таким образом, график QQ показывает, что только хвосты не соответствуют должным образом, но ясно, что все распределение не соответствует правильно. Почему это не отображается на графике QQ?
data-visualization
normality-assumption
histogram
qq-plot
Стат Тистициан
источник
источник
Ответы:
+1 к @NickSabbe, поскольку «сюжет просто говорит вам, что« что-то не так »», что часто является лучшим способом использования qq-сюжета (поскольку может быть трудно понять, как их интерпретировать). Однако можно научиться интерпретировать qq-сюжет, подумав о том, как его создать.
Вы начнете с сортировки своих данных, затем начнете отсчитывать свой путь от минимального значения, принимая каждое из них в качестве равного процента. Например, если у вас было 20 точек данных, при подсчете первого (минимального) вы сказали бы себе: «Я насчитал 5% моих данных». Вы будете следовать этой процедуре, пока не дойдете до конца, после чего вы пройдете 100% своих данных. Эти процентные значения могут затем сравниваться с такими же процентными значениями из соответствующей теоретической нормы (то есть нормали с тем же средним и SD).
Когда вы начнете строить их, вы обнаружите, что у вас есть проблемы с последним значением, которое составляет 100%, потому что, когда вы прошли 100% от теоретической нормы, вы находитесь в бесконечности. Эта проблема решается путем добавления небольшой константы к знаменателю в каждой точке ваших данных перед вычислением процентов. Типичным значением будет добавление 1 к знаменателю; например, вы назвали бы свою первую (из 20) точку данных 1 / (20 + 1) = 5%, а ваша последняя будет 20 / (20 + 1) = 95%. Теперь, если вы построите эти точки против соответствующей теоретической нормы, у вас будет pp-plot(для построения вероятностей против вероятностей). Такой график, скорее всего, покажет отклонения между вашим распределением и нормалью в центре распределения. Это связано с тем, что 68% нормального распределения находится в пределах +/- 1 SD, поэтому pp-графики имеют отличное разрешение и плохое разрешение в других местах. (Подробнее об этом можно прочитать здесь: « PP-графики» и «QQ-графики» .)
Часто нас больше всего беспокоит то, что происходит в хвостах нашего дистрибутива. Чтобы получить лучшее разрешение там (и, следовательно, худшее разрешение в середине), мы можем вместо этого построить qq-график . Мы делаем это, беря наши наборы вероятностей и пропуская их через обратное к CDF нормального распределения (это похоже на чтение z-таблицы в конце книги статистики в обратном направлении - вы читаете с вероятностью и читаете z- Гол). Результатом этой операции являются два набора квантилей , которые могут быть нанесены друг на друга аналогичным образом.
@whuber прав в том, что контрольная линия строится впоследствии (обычно) путем нахождения наилучшей подходящей линии через средние 50% точек (т. е. от первого квартиля до третьего). Это сделано для облегчения чтения сюжета. Используя эту линию, вы можете интерпретировать график как показывающий, отклоняются ли квантили вашего распределения от истинной нормы, когда вы движетесь в хвосты. (Обратите внимание, что положение точек дальше от центра на самом деле не зависит от тех, которые находятся ближе к нему; поэтому тот факт, что в вашей конкретной гистограмме хвосты сходятся вместе после того, как «плечи» различаются, не означает, что квантили теперь опять то же самое.)
Вы можете интерпретировать qq-график аналитически, считая значения, считанные из осей, сравниваемых для данной нанесенной точки. Если данные были хорошо описаны нормальным распределением, значения должны быть примерно одинаковыми. Например, возьмем крайнюю точку в крайнем левом нижнем углу: его значение находится где-то за , но его значение только немного за , поэтому оно намного дальше, чем должно быть. В общем, простая рубрика для интерпретации qq-сюжета состоит в том, что если данный хвост отворачивается против часовой стрелки от линии отсчета, то в этом хвосте вашего распределения будет больше данных, чем в теоретической нормали, и если хвост закручивается там по часовой стрелке является менее- 3 у - 0,2Икс - 3 Y −.2 данные в этом хвосте вашего распределения, чем в теоретической норме. Другими словами:
источник
Проще говоря: график QQ показывает ранжирование в эмпирическом распределении по сравнению с ожидаемым распределением. В вашем случае (а это на самом деле довольно часто; всегда с симметричным распределением) ранги около середины будут похожи между ожидаемым и эмпирическим, следовательно, QQ-график находится близко к линии там.
На самом деле не так просто идентифицировать «странные» наблюдения на основе их положения в QQ-графике: график просто говорит вам, что «что-то не так», и если вы знаете больше о данных / распределениях, вы можете узнать где проблемы.
источник
R
его подгонка основывается на некоторых умеренных процентилях, таких как квартили, хотя очевидно, что подгонка к гистограмме была основана на совпадающих моментах.)