Нормальное приближение к распределению Пуассона

12

Здесь, в Википедии, написано:

Для достаточно больших значений λ (скажем, λ>1000 ) нормальное распределение со средним λ и дисперсией λ (стандартное отклонение λ ) является отличным приближением к распределению Пуассона. Если λ больше, чем приблизительно 10, то нормальное распределение является хорошим приближением, если выполняется соответствующая коррекция непрерывности, то есть P(Xx), где (нижний регистр) x является неотрицательным целым числом, заменяется на P(Xx+0.5).

FPoisson(x;λ)Fnormal(x;μ=λ,σ2=λ)

К сожалению, это не цитируется. Я хочу быть в состоянии показать / доказать это с некоторой строгостью. Как вы можете на самом деле сказать, что нормальное распределение является хорошим приближением, когда λ>1000 , как вы оцениваете это «превосходное» приближение, какие меры использовались?

Самое большее, что у меня есть, это то, что здесь Джон говорит об использовании теоремы Берри-Эссеена и аппроксимирует ошибку в двух CDF. Из того, что я вижу, он не пробует никаких значений λ1000 .

hgeop
источник
6
Вы не можете доказать это без определения «хорошо». (Вы можете доказать асимптотический результат, но вы не можете объявить его «хорошим» при определенном размере выборки без определения ваших критериев.) Вы можете продемонстрировать его поведение на прямом примере (из которого люди могут увидеть, насколько хорошо «хорошо»). это своими огнями). Для типичных критериев, которые обычно используют люди, исправление непрерывности работает хорошо для если вы не углубляетесь в хвост. λ>10
Glen_b
1
(Если быть более точным, если ваш критерий - абсолютная ошибка, вы можете достичь «хорошего» везде при небольших размерах выборки, например, 10, но большинство людей заботятся о чем-то ближе к относительной ошибке)
Glen_b -Reinstate Monica

Ответы:

7

Предположим, что пуассоновский с параметром , а нормальный со средним и дисперсией . Мне кажется, что подходящим сравнением является и . Здесь для простоты я пишу , то есть нас интересует, когда соответствует стандартным отклонениям от среднего значения.XλYλPr ( Y [ n - 1Pr(X=n)n=λ+αPr(Y[n12,n+12]) nαn=λ+αλnα

Так что я обманул. Я использовал Mathematica. Таким образом, и и асимптотически as . Но их различие асимптотично If Вы изображаете это как функцию от , вы получите ту же кривую, что показана на рисунке со второго по последний в http://www.johndcook.com/blog/normal_approx_to_poisson/ .Pr ( Y [ n - 1Pr(X=n)1Pr(Y[n12,n+12])А& alpha(& alpha2-3)е-& alpha2/2

12πλeα2/2
λα
α(α23)eα2/262πλ
α

Вот команды, которые я использовал:

  n = lambda + alpha Sqrt[lambda];
  p1 = Exp[-lambda] lambda^n/n!;
  p2 = Integrate[1/Sqrt[2 Pi]/Sqrt[lambda] Exp[-(x-lambda)^2/2/lambda], {x, n-1/2, n+1/2}];
  Series[p1, {lambda, Infinity, 1}]
  Series[p2, {lambda, Infinity, 1}]

Также, немного поэкспериментировав, мне кажется, что лучшим асимптотическим приближением к является . Тогда ошибка что примерно в раза меньше.Pr(X=n)Pr(Y[nα2/6,n+1α2/6])

(5α49α26)eα2/2722πλ3/2
λ
Стивен Монтгомери-Смит
источник
2

Glen_b верен в том смысле, что «хорошая подгонка» является очень субъективным понятием. Однако, если вы хотите проверить, что ваше распределение Пуассона достаточно нормальное, вы можете использовать гипотетический тест Колморгова-Смирнова с нулевой гипотезой CDF пришел из распределения , предполагая ваш образец прибудет из пуассона ( ). Поскольку вы на самом деле не тестируете выборку, а один дистрибутив против другого, вам необходимо тщательно продумать размер выборки и уровень значимости, которые вы принимаете для этого гипотетического теста (поскольку мы не используем тест KS в обычном режиме). Это:H0:N(λ,λ)λ

  • Выберите представительный, гипотетический размер выборки n и отрегулируйте уровень значимости теста до типичного значения, например, 5%.

Теперь вычислите частоту ошибок типа II для этого теста, исходя из того, что ваши данные действительно получены из пуассона ( ). Ваша степень соответствия нормальному распределению будет равна частоте ошибок Типа II, в том смысле, что выборки размера n из вашего конкретного распределения Пуассона будут в среднем приниматься % времени с помощью теста нормальности KS на выбранном вами уровне. уровень значимости.λβ

Во всяком случае, это всего лишь один из способов получить чувство "хорошей формы". Тем не менее, все полагаются на некоторые субъективные понятия «благости», которые вам придется определить для себя.


источник
2

Вывод из биномиального распределения может дать вам некоторое представление.

У нас есть биномиальная случайная величина;

p(x)=(nx)px(1p)nx

Альтернативно это может быть вычислено рекурсивно;

p(x)=(nx+1)px(1p)p(x1)

Если вы соблюдаете начальные условия;

p(0)=(1p)n

Теперь давайте предположим, что велико, а мало, но средний успех постоянен . Тогда мы можем сделать следующее;npp(x)(np=λ)

P(X=i)=(ni)px(1p)nx

Мы используем это .p=λ/n

P(X=i)=n!(ni)!i!(λn)i(1λn)ni

Мы переключаем некоторые переменные и оцениваем;

P(X=i)=n(n1)(n2)(ni+1)niλii!(1λn)n(1λn)i

Из исчисления мы знаем, что . Мы также знаем, что потому что и верх, и низ являются полиномами степени .limn(1+x/n)n=ex[n(n1)(n2)(ni+1)]/ni1i

Это приводит к выводу, что при :n

P(X=i)eλλii!

Затем вы можете проверить, что и через определение. Мы знаем, что биномиальное распределение аппроксимирует нормальное в условиях теоремы де Мойвра-Лапласа, пока вы исправляете непрерывность, поэтому заменяется на ,E(X)=λVar(X)=λP ( X x ) P ( X x + 0,5 )P(Xx)P(Xx+0.5)

Винсент Вармердам
источник