Я сгенерировал вектор, который имеет распределение Пуассона, следующим образом:
x = rpois(1000,10)
Если я использую гистограмму hist(x)
, распределение выглядит как знакомое нормальное распределение в форме колокольчика. Однако в одном из тестов Колмогорова-Смирнова ks.test(x, 'pnorm',10,3)
говорится, что распределение значительно отличается от нормального распределения из-за очень малого p
значения.
Итак, мой вопрос: как распределение Пуассона отличается от нормального распределения, когда гистограмма выглядит так похоже на нормальное распределение?
Ответы:
Распределение Пуассона дискретно, в то время как нормальное распределение непрерывно, а случайная переменная Пуассона всегда> = 0. Таким образом, критерий Колгоморова-Смирнова часто сможет определить разницу.
Когда среднее значение распределения Пуассона велико, оно становится похожим на нормальное распределение. Однако,
rpois(1000, 10)
даже не смотрит , что похоже на нормальное распределение (она останавливается на 0 , а правый хвост слишком длинный).Почему вы сравниваете это с10−−√
ks.test(..., 'pnorm', 10, 3)
чемks.test(..., 'pnorm', 10, sqrt(10))
? Разница между 3 и невелика, но сама по себе будет иметь значение при сравнении распределений. Даже если распределение действительно нормальное, вы получите антиконсервативное распределение p-значений:источник
hist(replicate(1000, ks.test(rpois(1000, 10), rpois(1000, 10))$p.value))
показывает, что тест, сравнивающий два идентичных распределения Пуассона, будет слишком консервативным.Вот гораздо более простой способ понять это:
Вы можете смотреть на биномиальное распределение как на «мать» большинства дистрибутивов. Нормальное распределение является лишь приближением биномиального распределения, когда n становится достаточно большим. Фактически, Авраам де Моивр, по сути, обнаружил нормальное распределение, пытаясь приблизиться к биномиальному распределению, потому что оно быстро выходит из-под контроля для вычисления биномиального распределения по мере роста n, особенно когда у вас нет компьютеров ( ссылка ).
Распределение Пуассона также является еще одним приближением биномиального распределения, но оно гораздо лучше, чем нормальное распределение, когда n велико, а p мало, или, точнее, когда среднее приблизительно равно дисперсии (помните, что для биномиального распределения среднее = np и var = нп (1-р)) ( ссылка ). Почему эта конкретная ситуация так важна? По-видимому, в реальной жизни это проявляется очень часто, и поэтому у нас есть это «особое» приближение. Ниже приведен пример сценариев, в которых приближение Пуассона работает очень хорошо.
пример
У нас есть датацентр на 100 000 компьютеров. Вероятность того, что какой-либо компьютер выйдет из строя сегодня, составляет 0,001. Таким образом, в среднем np = 100 компьютеров выходят из строя в центре обработки данных. Какова вероятность того, что сегодня выйдет из строя только 50 компьютеров?
На самом деле, качество аппроксимации для нормального распределения идет на спад, так как мы идем в хвосте распределения, но Пуассон продолжает держаться очень хорошо. В приведенном выше примере давайте рассмотрим, какова вероятность того, что только 5 компьютеров выйдут из строя сегодня?
Надеемся, что это даст вам лучшее интуитивное понимание этих 3-х дистрибутивов.
источник
Я думаю, что стоит упомянуть, что пуассоновский ( ) pmf является ограничивающим pmf бинома ( , ) с .λ n pn pn=λ/n
В этом блоге можно найти одну довольно продолжительную разработку .
Но и здесь мы можем доказать это экономически. Если то для фиксированногоXn∼Binomial(n,λ/n) k
Легко видеть, что первое и последнее слагаемые сходятся к 1 при (напоминая, что фиксировано). Итак, as поскольку .n→∞ k n → ∞ ( 1 - λ / n ) n → e - λ
Кроме того, имеется нормальное приближение к биному, т. ( , ) . Аппроксимация улучшается при и от 0 и 1. Очевидно, что для режима Пуассона это не так (поскольку существует ), но чем больше , тем больше может быть и есть разумное нормальное приближение.p ≊n p ≊dN(np,np(1−p)) n→∞ p pn=λ/n→0 λ n
источник