Чем распределение Пуассона отличается от нормального распределения?

29

Я сгенерировал вектор, который имеет распределение Пуассона, следующим образом:

x = rpois(1000,10)

Если я использую гистограмму hist(x), распределение выглядит как знакомое нормальное распределение в форме колокольчика. Однако в одном из тестов Колмогорова-Смирнова ks.test(x, 'pnorm',10,3)говорится, что распределение значительно отличается от нормального распределения из-за очень малого pзначения.

Итак, мой вопрос: как распределение Пуассона отличается от нормального распределения, когда гистограмма выглядит так похоже на нормальное распределение?

Лучиано
источник
Также (в качестве дополнения к ответу Дэвида): прочитайте это ( stats.stackexchange.com/a/2498/603 ) и установите размер выборки равным 100 и посмотрите, как это повлияет .
user603

Ответы:

20
  1. Распределение Пуассона дискретно, в то время как нормальное распределение непрерывно, а случайная переменная Пуассона всегда> = 0. Таким образом, критерий Колгоморова-Смирнова часто сможет определить разницу.

  2. Когда среднее значение распределения Пуассона велико, оно становится похожим на нормальное распределение. Однако, rpois(1000, 10)даже не смотрит , что похоже на нормальное распределение (она останавливается на 0 , а правый хвост слишком длинный).

  3. Почему вы сравниваете это с ks.test(..., 'pnorm', 10, 3)чем ks.test(..., 'pnorm', 10, sqrt(10))? Разница между 3 и невелика, но сама по себе будет иметь значение при сравнении распределений. Даже если распределение действительно нормальное, вы получите антиконсервативное распределение p-значений:10

    set.seed(1)
    
    hist(replicate(10000, ks.test(rnorm(1000, 10, sqrt(10)), 'pnorm', 10, 3)$p.value))
    

введите описание изображения здесь

Дэвид Робинсон
источник
3
Часто люди видят что-то неопределенно симметричное и считают, что это выглядит «нормально». Я подозреваю, что то, что видел @Ross.
Fraijo
2
Обратите внимание, что тест KS обычно предполагает непрерывное распределение, поэтому полагаться на сообщаемое значение p в этом случае может (также) быть несколько подозрительным.
кардинал
1
Верно: запуск hist(replicate(1000, ks.test(rpois(1000, 10), rpois(1000, 10))$p.value))показывает, что тест, сравнивающий два идентичных распределения Пуассона, будет слишком консервативным.
Дэвид Робинсон
@Fraijo: действительно. У нас есть более общий вопрос по этой теме: если моя гистограмма показывает колоколообразную кривую, могу ли я сказать, что мои данные нормально распределены?
Серебряная рыбка
17

Вот гораздо более простой способ понять это:

Вы можете смотреть на биномиальное распределение как на «мать» большинства дистрибутивов. Нормальное распределение является лишь приближением биномиального распределения, когда n становится достаточно большим. Фактически, Авраам де Моивр, по сути, обнаружил нормальное распределение, пытаясь приблизиться к биномиальному распределению, потому что оно быстро выходит из-под контроля для вычисления биномиального распределения по мере роста n, особенно когда у вас нет компьютеров ( ссылка ).

Распределение Пуассона также является еще одним приближением биномиального распределения, но оно гораздо лучше, чем нормальное распределение, когда n велико, а p мало, или, точнее, когда среднее приблизительно равно дисперсии (помните, что для биномиального распределения среднее = np и var = нп (1-р)) ( ссылка ). Почему эта конкретная ситуация так важна? По-видимому, в реальной жизни это проявляется очень часто, и поэтому у нас есть это «особое» приближение. Ниже приведен пример сценариев, в которых приближение Пуассона работает очень хорошо.

пример

У нас есть датацентр на 100 000 компьютеров. Вероятность того, что какой-либо компьютер выйдет из строя сегодня, составляет 0,001. Таким образом, в среднем np = 100 компьютеров выходят из строя в центре обработки данных. Какова вероятность того, что сегодня выйдет из строя только 50 компьютеров?

Binomial: 1.208E-8
Poisson: 1.223E-8
Normal: 1.469E-7

На самом деле, качество аппроксимации для нормального распределения идет на спад, так как мы идем в хвосте распределения, но Пуассон продолжает держаться очень хорошо. В приведенном выше примере давайте рассмотрим, какова вероятность того, что только 5 компьютеров выйдут из строя сегодня?

Binomial: 2.96E-36 
Poisson: 3.1E-36
Normal: 9.6E-22

Надеемся, что это даст вам лучшее интуитивное понимание этих 3-х дистрибутивов.

Шиталь шах
источник
Какой удивительный и отличный ответ! Большое спасибо. :)
Бора М. Альпер
11

Я думаю, что стоит упомянуть, что пуассоновский ( ) pmf является ограничивающим pmf бинома ( , ) с .λnpnpn=λ/n

В этом блоге можно найти одну довольно продолжительную разработку .

Но и здесь мы можем доказать это экономически. Если то для фиксированногоXnBinomial(n,λ/n) k

P(Xn=k)=n!k!(nk)!(λn)k(1λn)nk=n!nk(nk)!1λkk!(1λ/n)neλ(1λ/n)k1.

Легко видеть, что первое и последнее слагаемые сходятся к 1 при (напоминая, что фиксировано). Итак, as поскольку .nkn ( 1 - λ / n ) ne - λ

P(Xn=k)eλλkk!,
n(1λ/n)neλ

Кроме того, имеется нормальное приближение к биному, т. ( , ) . Аппроксимация улучшается при и от 0 и 1. Очевидно, что для режима Пуассона это не так (поскольку существует ), но чем больше , тем больше может быть и есть разумное нормальное приближение.p npdN(np,np(1p))nppn=λ/n0λn

muratoa
источник
(+1) Добро пожаловать на сайт. Я сделал несколько правок; пожалуйста, убедитесь, что я не внес никаких ошибок в процесс. Я был не совсем уверен, что делать с самой последней фразой в последнем предложении. Некоторые дополнительные разъяснения могут быть полезны.
кардинал
1
Мне нравится это направление, хотя могут быть способы более тесно связать его с рассматриваемым вопросом, сделав связь между тремя распределениями более четкой. Например, (a) биномиальная случайная величина (последовательность) действует как пуассон до тех пор, пока , (b) бином (последовательность) действует как нормаль, если приблизительно равна фиксированной константе и (c ) пуассон (последовательность) действует как нормаль для больших основном из-за его бесконечной делимости. npnλpλ
кардинал
1
Хорошие комментарии @cardinal. В последнем предложении для фиксированного значения больше, чем больше тем больше (например, ближе к ). Следовательно, чем лучше нормальное приближение к биному и, в свою очередь, к пуассону. nλpn1/2
Муратоа
Спасибо. Я понимаю, что вы пытались сказать сейчас. Я в целом согласен с предостережением о том, что необходимо соблюдать осторожность в отношении взаимосвязи между параметрами, которые считаются фиксированными и которые варьируются в зависимости от других. :)
кардинал
Привет Мурат и добро пожаловать на сайт! приятно видеть вас здесь, и я надеюсь, что вы останетесь здесь. +1 за объяснение, почему гистограмма пуассона очень похожа на гистограмму нормали, когда велика. λ
Макрос