Сюжет QQ в Python

11

Я создал график qq, используя следующий код. Я знаю, что qq plot используется для проверки нормального распределения данных. Мой вопрос заключается в том, что обозначения осей x и y указывают на графике qq и что означает это значение квадрата r?

  N = 1200
  p = 0.53
  q = 1000
  obs = np.random.binomial(N, p, size = q)/N

import scipy.stats as stats

z = (obs-np.mean(obs))/np.std(obs)

stats.probplot(z, dist="norm", plot=plt)
plt.title("Normal Q-Q plot")
plt.show()

введите описание изображения здесь

Я знаю, что уже есть дискуссия о сюжете qq , но я не мог понять концепцию, несмотря на прохождение этой дискуссии.

Элизабет Сьюзан Джозеф
источник
4
Это очень близко к тому, чтобы быть дубликатом связанного потока - Python против R не является здесь важным отличием - но аспект является новым. Для вопросов и ответов может быть хорошей идеей немного больше сосредоточиться на этом аспекте, чтобы избежать дублирования. (Интересно, склонен ли неправильно понимать R 2 , поскольку даже при плохой подгонке наклон вверх, который неизбежен на графике QQ, означает, что мы ожидаем, что R 2 будет несколько больше нуля. Поэтому значения, которые могут быть весьма впечатляющими в регрессионном анализе, могут здесь не все так впечатляюще.)R2R2R2
Серебряная рыба
R2R2R2R2
R2R2
Вы уверены, что строите сюжет QQ? help(probplot)состояния: probplotгенерирует график вероятности, который не следует путать с графиком QQ или PP.
abukaj

Ответы:

10

Ответ Маконда точен, однако из исходного поста я подумал, что было бы полезно немного упростить словоблудие.

График QQ означает «квантиль-квантиль» .

Это график, на котором оси специально преобразуются , чтобы нормальное (или гауссово) распределение отображалось на прямой линии . Другими словами, совершенно нормальное распределение будет точно следовать линии с уклоном = 1 и перехватом = 0.

Следовательно, если график не является - примерно - прямой линией, то лежащее в основе распределение не является нормальным. Если он изгибается, то, например, имеется больше значений, чем ожидалось. (Ссылка содержит больше примеров.)


  1. Что представляют собой ярлыки x & y?

В теоретических квантилях расположены вдоль оси х. То есть ось X - это не ваши данные , это просто ожидание того, где ваши данные должны были быть, если бы они были нормальными.

Фактические данные , отложены по оси у.

Значения являются стандартными отклонениями от среднего. Итак, 0это среднее значение данных, 1на 1 стандартное отклонение выше и т. Д. Это означает, например, что 68.27%все ваши данные должны быть между -1 и 1, если у вас нормальное распределение.

  1. р2

р2р2р2р2


И наконец, есть похожий сюжет, который редко используется, который называется pp plot . Этот график более полезен, если вы хотите сосредоточиться на том, где находится основная часть данных, а не на крайностях.

Майк Уильямсон
источник
1
Слово « перекос» здесь не лучший выбор: я бы сказал, « преобразованный» .
Ник Кокс
Отличное объяснение. Не могли бы вы объяснить, как генерируется ось X (ожидаемые значения)?
Вивек Анантан
1

Ось Y показывает значения наблюдаемого распределения, а ось X - значения теоретического распределения.

Каждая точка - это квантиль. Скажем, если на графике было 100 точек, первая точка (точка в левом нижнем углу) указывает верхнюю границу для интервала, а при упорядочении от наименьшего к наибольшему - наименьший 1 процент точек данных соответствующее распределение остается в этом интервале. Точно так же 2-ая точка - это верхняя граница интервала, где расположены наименьшие 2 процента точек данных из распределения. Это понятие квантиля. Но это не ограничивается случаем с 100 интервалами, это общая концепция, и вы можете иметь как можно больше интервалов, тогда у вас будет столько квантилей, описывающих границы интервалов.

--

Я использовал точки данных в своем ответе, например, упорядоченные точки данных и т. Д. Это относится к дискретным распределениям, но концепция может быть обобщена для непрерывных распределений.

р2р2

Macond
источник
3
р2р2