Я создал график qq, используя следующий код. Я знаю, что qq plot используется для проверки нормального распределения данных. Мой вопрос заключается в том, что обозначения осей x и y указывают на графике qq и что означает это значение квадрата r?
N = 1200
p = 0.53
q = 1000
obs = np.random.binomial(N, p, size = q)/N
import scipy.stats as stats
z = (obs-np.mean(obs))/np.std(obs)
stats.probplot(z, dist="norm", plot=plt)
plt.title("Normal Q-Q plot")
plt.show()
Я знаю, что уже есть дискуссия о сюжете qq , но я не мог понять концепцию, несмотря на прохождение этой дискуссии.
probability
normal-distribution
mathematical-statistics
descriptive-statistics
qq-plot
Элизабет Сьюзан Джозеф
источник
источник
help(probplot)
состояния:probplot
генерирует график вероятности, который не следует путать с графиком QQ или PP.Ответы:
Ответ Маконда точен, однако из исходного поста я подумал, что было бы полезно немного упростить словоблудие.
График QQ означает «квантиль-квантиль» .
Это график, на котором оси специально преобразуются , чтобы нормальное (или гауссово) распределение отображалось на прямой линии . Другими словами, совершенно нормальное распределение будет точно следовать линии с уклоном = 1 и перехватом = 0.
Следовательно, если график не является - примерно - прямой линией, то лежащее в основе распределение не является нормальным. Если он изгибается, то, например, имеется больше значений, чем ожидалось. (Ссылка содержит больше примеров.)
В теоретических квантилях расположены вдоль оси х. То есть ось X - это не ваши данные , это просто ожидание того, где ваши данные должны были быть, если бы они были нормальными.
Фактические данные , отложены по оси у.
Значения являются стандартными отклонениями от среднего. Итак,
0
это среднее значение данных,1
на 1 стандартное отклонение выше и т. Д. Это означает, например, что68.27%
все ваши данные должны быть между -1 и 1, если у вас нормальное распределение.И наконец, есть похожий сюжет, который редко используется, который называется pp plot . Этот график более полезен, если вы хотите сосредоточиться на том, где находится основная часть данных, а не на крайностях.
источник
Ось Y показывает значения наблюдаемого распределения, а ось X - значения теоретического распределения.
Каждая точка - это квантиль. Скажем, если на графике было 100 точек, первая точка (точка в левом нижнем углу) указывает верхнюю границу для интервала, а при упорядочении от наименьшего к наибольшему - наименьший 1 процент точек данных соответствующее распределение остается в этом интервале. Точно так же 2-ая точка - это верхняя граница интервала, где расположены наименьшие 2 процента точек данных из распределения. Это понятие квантиля. Но это не ограничивается случаем с 100 интервалами, это общая концепция, и вы можете иметь как можно больше интервалов, тогда у вас будет столько квантилей, описывающих границы интервалов.
Я использовал точки данных в своем ответе, например, упорядоченные точки данных и т. Д. Это относится к дискретным распределениям, но концепция может быть обобщена для непрерывных распределений.
источник