Каково распределение округленных в меньшую сторону средних пуассоновских случайных величин?

20

Если у меня есть случайные величины , которые распределены по Пуассону с параметрами , каково распределение (т. Целое число среднего значения)?λ 1 , λ 2 , , λ n Y = n i = 1 X iX1,X2,,Xnλ1,λ2,,λnY=i=1nXin

Сумма Пуассона - это тоже Пуассон, но я недостаточно уверен в статистике, чтобы определить, является ли она такой же для случая выше.

Любо Антонов
источник
@amoeba Я откатил твою правку заголовка, потому что на самом деле это не «округление». Предыдущее редактирование Кардинала, хотя и не столь точное, кажется предпочтительным, потому что оно точное.
whuber
@ whuber Хорошо. Я колебался, когда делал это редактирование, но решил включить слово «округление», потому что в настоящее время заголовок не намекает на основную трудность здесь (и поэтому вводит в заблуждение). Надлежащим термином должно быть «округление вниз», поэтому, возможно, «каково распределение среднего числа пуассоновских случайных величин, округленное в меньшую сторону ?» - хотя я признаю, это звучит немного громоздко.
говорит амеба, восстанови Монику
@amoeba Дальнейшие изменения, конечно, приветствуются!
whuber

Ответы:

27

Обобщение вопроса требует распределения Y=X/m когда распределение X известно и поддерживается на натуральных числах. (В вопросе X имеет пуассоновское распределение параметра λ=λ1+λ2++λn и m=n .)

Распределение Y легко определяется распределением mY , вероятность которого производящая функция (PGF) может быть определена в терминах PGF из X . Вот схема деривации.


Напишите для pgf из , где (по определению) . построен из таким образом, что его pgf, ,X p n = Pr ( X = n ) m Y X qp(x)=p0+p1x++pnxn+Xpn=Pr(X=n)mYXq

q(x)=(p0+p1++pm1)+(pm+pm+1++p2m1)xm++(pnm+pnm+1++p(n+1)m1)xnm+.

Потому что это сходится абсолютно для , мы можем переставить слагаемые в сумму частей вида|x|1

Dm,tp(x)=pt+pt+mxm++pt+nmxnm+

для . В степенной ряд функции состоят из любого срок серии , начиная с : это иногда называют прореживания из . Поиски в Google в настоящее время не дают много полезной информации о децимациях, поэтому для полноты приведем формулу.x t D m , t p m th p t th pt=0,1,,m1xtDm,tpmthptthp

Пусть будет любым примитивным корнем единства; например, взять . Тогда из и чтоm th ω = exp ( 2 i π / m ) ω m = 1 m - 1 j = 0 ω j = 0ωmthω=exp(2iπ/m)ωm=1j=0m1ωj=0

xtDm,tp(x)=1mj=0m1ωtjp(x/ωj).

Чтобы увидеть это, обратите внимание, что оператор является линейным, поэтому достаточно проверить формулу на основе . Применение правой части к дает { 1 , x , x 2 , , x n , } x nxtDm,t{1,x,x2,,xn,}xn

xtDm,t[xn]=1mj=0m1ωtjxnωnj=xnmj=0m1ω(tn)j.

Когда и отличаются кратным , каждый член в сумме равен и мы получаем . В противном случае члены циклически перебирают степени и они суммируются до нуля. Откуда этот оператор сохраняет все степени совпадающие с по модулю и убивает все остальные: это именно требуемая проекция.н м 1 х н ω т - н х т мtnm1xnωtnxtm

Формула для легко следует, изменив порядок суммирования и признав одну из сумм геометрической, записав ее в замкнутой форме:q

q(x)=t=0m1(Dm,t[p])(x)=t=0m1xt1mj=0m1ωtjp(ωjx)=1mj=0m1p(ωjx)t=0m1(ωj/x)t=x(1xm)mj=0m1p(ωjx)xωj.

Например, pgf распределения Пуассона параметра имеет вид . С , и PGF из будетp ( x ) = exp ( λ ( x - 1 ) ) m = 2 ω = - 1 2 Yλp(x)=exp(λ(x1))m=2ω=12Y

q(x)=x(1x2)2j=021p((1)jx)x(1)j=x1/x2(exp(λ(x1))x1+exp(λ(x1))x+1)=exp(λ)(sinh(λx)x+cosh(λx)).

Одним из применений этого подхода является вычисление моментов и . Значение производной от pgf, оцененного при является факториальным моментом. момент является линейной комбинацией первых факторных моментов. Используя эти наблюдения, мы находим, например, что для пуассоновского распределенного его среднее значение (которое является первым факториальным моментом) равно , среднее равно , а среднее значение равноm Y k th x = 1 k th k th k X λ 2 ( X / 2 ) λ - 1XmYkthx=1kthkthkXλ2(X/2)3(X/3)λ-1+e-3λ/2(sin ( λ12+12e2λ3(X/3)λ1+e3λ/2(sin(3λ2)3+cos(3λ2)) :

Средства

Средние значения для показаны синим, красным и желтым соответственно как функции от : асимптотически среднее значение падает на по сравнению с исходным средним Пуассона.λ ( m - 1 ) / 2m=1,2,3λ(m1)/2

Аналогичные формулы для дисперсий могут быть получены. (Они становятся беспорядочными по мере подъема и поэтому опускаются. Одна вещь, которую они окончательно устанавливают, это то, что когда кратное не кратно Пуассону: оно не имеет характерного равенства среднего значения и дисперсии) Вот график дисперсий как функция для :m > 1 Y λ m = 1 , 2 , 3mm>1Yλm=1,2,3

Дисперсии

Интересно, что при больших значениях дисперсии увеличиваются . Интуитивно это объясняется двумя конкурирующими явлениями: функция пола эффективно объединяет группы значений, которые изначально были различны; это должно привести к уменьшению дисперсии . В то же время, как мы уже видели, средства тоже меняются (потому что каждая ячейка представлена ​​наименьшим значением); это должно привести к тому, что термин, равный квадрату разности средств, будет добавлен обратно. Увеличение дисперсии для больших становится больше с большими значениями .λ mλλm

Поведение дисперсии с на удивление сложное. Давайте закончим быстрой симуляцией (в ), показывающей, на что она способна. Графики показывают разницу между дисперсией и дисперсией для пуассоновского распределенного с различными значениями диапазоне от до . Во всех случаях графики, похоже, достигли своих асимптотических значений справа.m m X / m X X λ 1 5000mYmRmX/mXXλ15000

set.seed(17)
par(mfrow=c(3,4))
temp <- sapply(c(1,2,5,10,20,50,100,200,500,1000,2000,5000), function(lambda) {
  x <- rpois(20000, lambda)
  v <- sapply(1:floor(lambda + 4*sqrt(lambda)), 
              function(m) var(floor(x/m)*m) - var(x))
  plot(v, type="l", xlab="", ylab="Increased variance", 
       main=toString(lambda), cex.main=.85, col="Blue", lwd=2)
})

Сюжеты

Whuber
источник
1
Это отличный ответ! Вероятно, мне потребуется некоторое время, чтобы переварить :)
Любо Антонов
1
и именно поэтому я сказал: «Использование функции пола ... также немного влияет на дисперсию, хотя и более сложным образом».
Генри
1
+1 Спасибо за подробный ответ. Конечно, существуют сложные способы, которыми функция пола влияет на дисперсию.
Дилип Сарвейт
1
+1 для симуляции в R с кодом --- это очень хороший пример использования sapply()для симуляции. Благодарю.
Асад Эбрахим
1
@ Роберто Спасибо. Однако различие между « » и « », будучи чисто условным обозначением, является совершенно тривиальным и не имеет никакого математического или статистического значения. сxs
whuber
12

Как говорит Майкл Черник, если отдельные случайные величины независимы, то сумма равна Пуассону с параметром (среднее и дисперсия) который вы могли бы назвать . λi=1nλiλ

Деление на уменьшает среднее значение до и дисперсию поэтому дисперсия будет меньше эквивалентного распределения Пуассона. Как говорит Майкл, не все значения будут целыми числами.λ / n λ / n 2nλ/nλ/n2

Использование функции floor немного уменьшает среднее значение, примерно на , и слегка влияет на дисперсию, хотя и более сложным образом. Несмотря на то, что у вас есть целочисленные значения, дисперсия все равно будет существенно меньше, чем среднее значение, и поэтому у вас будет более узкое распределение, чем у Пуассона.1212n

Генри
источник
спасибо, не результат, который я могу использовать, но, по крайней мере, теперь я знаю :)
Любо Антонов
Если лямбды не все равны, разве результат не должен быть больше похож на отрицательный бином, чем на Пуассона (игнорируя нецелую часть на данный момент)? Что мне здесь не хватает?
gung - Восстановить Монику
2
@gung: Вам не хватает того, что отдельные влияют на распределение только через их сумму и количество. Неважно, какие конкретные значения они принимают: даст тот же результат, что и . λ 1 = 1 , λ 2 = 2 , λ 3 = 9, λ 1 = 4 , λ 2 = 4 , λ 3 = 4λiλ1=1,λ2=2,λ3=9λ1=4,λ2=4,λ3=4
Генри
10

Массовая функция вероятности среднего от независимых пуассоновских случайных величин может быть записана явно, хотя ответ может вам не сильно помочь. Как отметил в своих комментариях Михаил Черник, сумма независимых пуассоновских случайных величин с соответствующими параметрами является пуассоновской случайной величиной с параметром . Следовательно, Таким образом, - случайная величина, принимающая значение с вероятностьюi X i X i λ i λ = i λ i P { n i = 1 X i = k } = exp ( - λ ) λ kn iXiXiλiλ=iλi Y =п-1Σ п я = 1 Xяк/пехр(-λ)λк

P{i=1nXi=k}=exp(λ)λkk!,  k=0,1,2,,
Y^=n1i=1nXik/nY Y= УмР{Y=т}=Р{ 1exp(λ)λkk! . Обратите внимание , что является не случайным целочисленным переменной (хотя это взять на себя равномерно разнесенные рациональные значения). Из этого легко следует, что является целочисленной случайной величиной, принимающей значение с вероятностью это неY^Y=Y^mλn
P{Y=m}=P{1ni=1nXi=m}=exp(λ)i=0n1λmn+i(mn+i)!,  m=0,1,2,,
функция вероятности массы пуассоновской случайной величины. Формулы для среднего и дисперсии могут быть записаны с использованием этой функции вероятности, но они, очевидно, не приводят к хорошим простым ответам в терминах и . Приблизительные значения могут быть получены, как указано Генри.λn
Дилип Сарватэ
источник
+1 Там являются замкнутыми формулами для моментов , хотя. Y
whuber
Спасибо за строгую формулировку! Есть ли какой-нибудь шанс, что вы захотите попробовать формулу для среднего и дисперсии?
Любо Антонов
2
Возможно, @whuber опубликует ссылку (или ссылку на книгу или журнальную статью), где можно найти формулы для моментов в закрытой форме, или напишет ответ с указанием самих формул с подробным выводом или без него.
Дилип Сарватэ
@Dilip Мое утверждение о закрытых формулах не было основано на чем-либо опубликованном, поэтому я разместил отдельный ответ, в котором указано, что я имел в виду, и как его можно использовать для понимания этой ситуации.
whuber
3

У не будет Пуассона. Обратите внимание, что случайные переменные Пуассона принимают неотрицательные целочисленные значения. После деления на константу вы создаете случайную переменную, которая может иметь нецелые значения. Он по-прежнему будет иметь форму Пуассона. Просто дискретные вероятности могут возникать в нецелых точках.

Майкл Р. Черник
источник
Это имеет смысл, но что, если на самом деле дискретен, например, пол среднего? Это сделало бы это Пуассоном? Y
Любо Антонов
@ lucas1024 Я так не думаю, но я не уверен.
Майкл Р. Черник
Форма суммы определенно Пуассона, верно? его среднее значение и дисперсия также идентичны. Разве нет ничего похожего на чешуйчатый Пуассон? Y - просто переменная Пуассона (сумма), которая масштабируется наn - 1Xin1
JDav
@JDav Сумма равна Пуассону с параметром тарифа, равным сумме отдельных параметров тарифа. Но OP масштабируется на 1 / n, а затем хочет обрезать целое число чуть ниже Y. Я не знаю точно, что это делает с распределением.
Майкл Р. Черник
Мой предыдущий комментарий предполагал независимость.
Майкл Р. Черник