Итак, мы знаем, что сумма пуассонов с параметром сама является пуассоном с . Поэтому гипотетически, можно взять и говорят , что это на самом деле , где каждый из есть: , и принять большой пчтобы получить ЦПТ к работе.
Это (очевидно) не работает. Я предполагаю, что это как-то связано с тем, как CLT работает «быстрее» для случайных переменных, которые «ближе» к нормальным, и чем меньше лямбда, тем больше мы получаем случайную переменную, которая в большинстве случаев равна 0 и редко меняется чем-то другим.
Однако я объяснил свою интуицию. Есть ли более формальный способ объяснить, почему это так?
Благодарность!
poisson-distribution
central-limit-theorem
asymptotics
Таль Галили
источник
источник
Ответы:
Я согласен с @whuber, что корень путаницы, по-видимому, заменяет асимптотику суммирования в CLT некоторым неким делением в вашем аргументе. В CLT мы получаем фиксированное распределение затем берем из него n чисел x i и вычисляем сумму ˉ x n = 1f(x,λ) n xi . Если мы продолжаем увеличиватьn,то происходит интересная вещь:
√x¯n=1n∑ni=1xi n
гдеμ,сг2собой среднее и дисперсия распределенияF(х).
Что вы предлагаете делать с Пуассон несколько назад: вместо суммирования переменных из фиксированного распределения, вы хотите разделить на фиксированное распределение в постоянно изменяющиеся части. Другими словами, вы берете переменную из фиксированного распределения f ( x , λ ), а затем делите ее на x i так, чтобы n ∑ i = 1 x i ≡ xx f(x,λ) xi
Что CLT говорит об этом процессе? Ничего. Обратите внимание, как в CLT мы когда-либо менялись , а егоизменениераспределенияен(х)который сходится кфиксированнымраспределениемN(0,сг2)n−−√(x¯n−μ) fn(x) N(0,σ2)
В вашей настройке ни сумма ни ее распределение f ( x , λ ) не меняются! Они исправлены. Они не меняются, они не сходятся ни к чему. Итак, CLT ничего не говорит о них.x f(x,λ)
Кроме того, CLT ничего не говорит о количестве элементов в сумме. Вы можете иметь сумму 1000 переменных от Пуассона (0,001), и CLT ничего не скажет о сумме. Все это говорит о том, что если вы продолжите увеличивать N, то в какой-то момент эта сумма начнет выглядеть как нормальное распределение . Фактически, если N = 1 000 000, вы получите близкое приближение нормального распределения.1N∑Ni=1xi,xi∼Poisson(0.001)
Ваша интуиция верна только в отношении количества элементов в сумме, т. Е. Чем больше начальное распределение отличается от нормального, тем больше элементов вам нужно сложить, чтобы добраться до нормы. Более формальный (но все - таки неформальный) способ был бы, глядя на характеристической функции Пуассона: Если Х > > 1 , вы получаете с разложением Тейлора (WRT т ) вложенного показателя степени: ≈ exp ( i λ t - λ / 2 t 2
Однако ваша интуиция не применяется правильно: ваше смещение суммирования в CLT с каким-то делением приводит в замешательство и делает CLT неприменимым.
источник
Of course, for different distributions (i.e. higher skewed for example), largern 's are required before the approximation derived from this theorem become reasonable. In your example, for λm=1/m , an n>>m is required before the normal approximation is reasonable.
EDIT
There is discussion about how the CLT does not apply to sums, but rather to standardized sums (i.e.∑xi/n−−√ not ∑xi ). In theory, this is of course true: the unstandardized sum will have an undefined distribution in most cases.
However, in practice, you certainly can apply the approximation justified by the CLT to sums! IfFx¯ can be approximated by a normal CDF for large n , then certainly F∑x can too, as multiplying by a scalar preserves normality. And you can see this right away in this problem: recall that if Xi∼Pois(λ) , then Y=∑ni=1Xi∼Pois(nλ) . And we all learned in our upper division probability course that for large λ , the CDF of a Pois(λ) can be approximated quite well by a normal with μ=λ , σ2=λ . So for any fixed λ , we can approximate the CDF of Y∼Pois(nλ) fairly well with Φ(y−nλnλ√) for a large enough n if λ>0 (approximation can trivially be applied if λ=0 , but not the calculation of the CDF as I have written it).
While the CLT does not readily apply to sums, the approximation based on the CLT certainly does. I believe this is what the OP was referring to when discussing applying the CLT to the sum.
источник
The question is, I argue, more interesting if thought about more generally, letting the distribution of the parent Poisson depend onn , say with parameter λn and λn=1 as a special case. I think it's perfectly reasonable to ask why, and how we can understand that, a central limit theorem does not hold for the sum Sn=∑ni=1Xi,n . After all, it's common to apply a CLT even in problems where the distributions of the components of the sum depend on n . It's also common to decompose Poisson distributions as the distribution of a sum of Poisson variables, and then apply a CLT.
The key issue as I see it is that your construction implies the distribution ofXi,n depends on n in such a way that the parameter of the distribution of Sn does not grow in n . If you would instead have taken, for example, Sn∼Poi(n) and made the same decomposition, the standard CLT would apply. In fact, one can think of many decompositions of a Poi(λn) distribution that allows for application of a CLT.
The Lindeberg-Feller Central Limit Theorem for triangular arrays is often used to examine convergence of such sums. As you point out,Sn∼Poi(1) for all n , so Sn cannot be asymptotically normal. Still, examining the Lindeberg-Feller condition sheds some light on when decomposing a Poisson into a sum may lead to progress.
A version of the theorem may be found in these notes by Hunter. Lets2n=Var(Sn) . The Lindeberg-Feller condition is that, ∀ϵ>0 :
Now, for the case at hand, the variance of the terms in the sum is dying off so quickly inn that sn=1 for every n . For fixed n , we also have that the Xi,n are iid. Thus, the condition is equivalent to
But, for smallϵ and large n ,
which does not approach zero. Thus, the condition fails to hold. Again, this is as expected since we already know the exact distribution ofSn for every n , but going through these calculations gives some indications of why it fails: if the variance didn't die off as quickly in n you could have the condition hold.
источник