Почему не CLT работа для

Итак, мы знаем, что сумма $n$ пуассонов с параметром $\lambda$ сама является пуассоном с $n\lambda$ . Поэтому гипотетически, можно взять $x \sim poisson(\lambda = 1)$ и говорят , что это на самом деле $\sum_1^n x_i \sim poisson(\lambda = 1)$ , где каждый из $x_i$ есть: $x_i \sim poisson(\lambda = 1/n)$ , и принять большой пчтобы получить ЦПТ к работе.

Это (очевидно) не работает. Я предполагаю, что это как-то связано с тем, как CLT работает «быстрее» для случайных переменных, которые «ближе» к нормальным, и чем меньше лямбда, тем больше мы получаем случайную переменную, которая в большинстве случаев равна 0 и редко меняется чем-то другим.

Однако я объяснил свою интуицию. Есть ли более формальный способ объяснить, почему это так?

Благодарность!

poisson-distribution central-limit-theorem asymptotics Таль Галили
источник

Для начала CLT нужно, чтобы вы поделили

\sum_{i = 1}^{n} x_{i}

$\sum_{i=1}^nx_i$ на

\sqrt{n}

$\sqrt{n}$ (в этом случае вы получите сходство к гауссову).

Алекс Р.

@AlexR. Нет, вы делите на

n

$n$ , тогда стандартное отклонение будет в

1 / \sqrt{n}

$1/\sqrt n$

Аксакал

Я не вижу, что этот вопрос имеет отношение к CLT "не работает". CLT касается стандартизированных сумм случайных величин с заданным распределением, тогда как вы берете одну случайную переменную и рассматриваете бесконечно много способов ее деления .

whuber

@AlexR Настройка кажется неправильной. Здесь происходят два разных процесса - суммирование и деление - и нет никаких оснований полагать, что они должны иметь схожие асимптотические характеристики.

whuber

@Aksakal: на самом деле, AlexR правильно. Если вы разделите на

, вы получите вырожденное распределение при

. Если вы разделите на

n

$n$

n \to \infty

$n \rightarrow \infty$

, вы подходите к нормальному распределению с sd = 1 при

\sqrt{n}

$\sqrt n$

n \to \infty

$n \rightarrow \infty$

Клифф А.Б.

Ответы:

Я согласен с @whuber, что корень путаницы, по-видимому, заменяет асимптотику суммирования в CLT некоторым неким делением в вашем аргументе. В CLT мы получаем фиксированное распределение затем берем из него чисел и вычисляем сумму $f(x,\lambda)$ $n$ $x_i$ . Если мы продолжаем увеличиватьто происходит интересная вещь: $\bar x_n=\frac{1}{n}\sum_{i=1}^nx_i$ $n$ гдесобой среднее и дисперсия распределения.

\sqrt{n} ({\bar{x}}_{n} - μ) \to N (0, σ^{2})

$\sqrt n (\bar x_n-\mu)\rightarrow\mathcal{N}(0,\sigma^2)$

μ, σ^{2}

$\mu,\sigma^2$

f (x)

$f(x)$

Что вы предлагаете делать с Пуассон несколько назад: вместо суммирования переменных из фиксированного распределения, вы хотите разделить на фиксированное распределение в постоянно изменяющиеся части. Другими словами, вы берете переменную из фиксированного распределения затем делите ее на так, чтобы $x$ $f(x,\lambda)$ $x_i$

\sum_{i = 1}^{n} x_{i} \equiv x

$\sum_{i=1}^nx_i\equiv x$

Что CLT говорит об этом процессе? Ничего. Обратите внимание, как в CLT мы когда-либо менялись , а егоизменениераспределениякоторый сходится кфиксированнымраспределением $\sqrt n(\bar x_n-\mu)$ $f_n(x)$ $\mathcal{N}(0,\sigma^2)$

В вашей настройке ни сумма ни ее распределение не меняются! Они исправлены. Они не меняются, они не сходятся ни к чему. Итак, CLT ничего не говорит о них. $x$ $f(x,\lambda)$

Кроме того, CLT ничего не говорит о количестве элементов в сумме. Вы можете иметь сумму 1000 переменных от Пуассона (0,001), и CLT ничего не скажет о сумме. Все это говорит о том, что если вы продолжите увеличивать N, то в какой-то момент эта сумма начнет выглядеть как нормальное распределение . Фактически, если N = 1 000 000, вы получите близкое приближение нормального распределения. $\frac{1}{N}\sum_{i=1}^N x_i, x_i\sim Poisson(0.001)$

Ваша интуиция верна только в отношении количества элементов в сумме, т. Е. Чем больше начальное распределение отличается от нормального, тем больше элементов вам нужно сложить, чтобы добраться до нормы. Более формальный (но все - таки неформальный) способ был бы, глядя на характеристической функции Пуассона: Если , вы получаете с разложением Тейлора (WRT ) вложенного показателя степени:

\exp (λ (\exp (i t) - 1))

$\exp(\lambda (\exp(it)-1))$

λ >> 1

$\lambda>>1$

t

$t$

Это характеристическая функция нормального распределения

\approx \exp (i λ t - λ / 2 t^{2})

$\approx\exp(i\lambda t-\lambda/2t^2)$

N (λ, λ^{2})

$\mathcal{N}(\lambda,\lambda^2)$

Однако ваша интуиция не применяется правильно: ваше смещение суммирования в CLT с каким-то делением приводит в замешательство и делает CLT неприменимым.

Аксакал
источник

+1 Подготовительный материал хорошо сформулирован, очень ясен и раскрывает суть проблемы.

whuber

$n$ $n \rightarrow \infty$ ,

$\frac {\sum x - \mu} {\sqrt n} \rightarrow_d N(0, \sigma)$ ,

$\mu$ $\sigma$ $x$ .

Of course, for different distributions (i.e. higher skewed for example), larger $n$ 's are required before the approximation derived from this theorem become reasonable. In your example, for $\lambda_m = 1/m$ , an $n >> m$ is required before the normal approximation is reasonable.

EDIT

There is discussion about how the CLT does not apply to sums, but rather to standardized sums (i.e. $\sum x_i / \sqrt n$ not $\sum x_i$ ). In theory, this is of course true: the unstandardized sum will have an undefined distribution in most cases.

However, in practice, you certainly can apply the approximation justified by the CLT to sums! If $F_{\bar x}$ can be approximated by a normal CDF for large $n$ , then certainly $F_{\sum x}$ can too, as multiplying by a scalar preserves normality. And you can see this right away in this problem: recall that if $X_i \sim Pois(\lambda)$ , then $Y = \sum_{i = 1}^n X_i \sim Pois(n\lambda)$ . And we all learned in our upper division probability course that for large $\lambda$ , the CDF of a $Pois(\lambda)$ can be approximated quite well by a normal with $\mu = \lambda$ , $\sigma^2 = \lambda$ . So for any fixed $\lambda$ , we can approximate the CDF of $Y \sim Pois(n\lambda)$ fairly well with $\Phi( \frac{y - n\lambda}{\sqrt{n\lambda} })$ for a large enough $n$ if $\lambda > 0$ (approximation can trivially be applied if $\lambda = 0$ , but not the calculation of the CDF as I have written it).

While the CLT does not readily apply to sums, the approximation based on the CLT certainly does. I believe this is what the OP was referring to when discussing applying the CLT to the sum.

Cliff AB
источник

The question is, I argue, more interesting if thought about more generally, letting the distribution of the parent Poisson depend on $n$ , say with parameter $\lambda_n$ and $\lambda_n = 1$ as a special case. I think it's perfectly reasonable to ask why, and how we can understand that, a central limit theorem does not hold for the sum $S_n = \sum_{i=1}^n X_{i,n}$ . After all, it's common to apply a CLT even in problems where the distributions of the components of the sum depend on $n$ . It's also common to decompose Poisson distributions as the distribution of a sum of Poisson variables, and then apply a CLT.

The key issue as I see it is that your construction implies the distribution of $X_{i, n}$ depends on $n$ in such a way that the parameter of the distribution of $S_n$ does not grow in $n$ . If you would instead have taken, for example, $S_n \sim Poi(n)$ and made the same decomposition, the standard CLT would apply. In fact, one can think of many decompositions of a $Poi(\lambda_n)$ distribution that allows for application of a CLT.

The Lindeberg-Feller Central Limit Theorem for triangular arrays is often used to examine convergence of such sums. As you point out, $S_n \sim Poi(1)$ for all $n$ , so $S_n$ cannot be asymptotically normal. Still, examining the Lindeberg-Feller condition sheds some light on when decomposing a Poisson into a sum may lead to progress.

A version of the theorem may be found in these notes by Hunter. Let $s_n^2 = \mathrm{Var(S_n)}$ . The Lindeberg-Feller condition is that, $\forall \epsilon >0$ :

\frac{1}{s_{n}^{2}} \sum_{i = 1}^{n} E [X_{i, n} - 1 / n]^{2} I (| X_{i, n} - 1 / n | > ϵ s_{n}) \to 0, n \to \infty

$\frac{1}{s_n^2}\sum_{i=1}^n\mathbb E[X_{i,n} - 1/n]^2I(\vert X_{i,n} - 1/n \vert >\epsilon s_n) \to 0,n\to\infty$

Now, for the case at hand, the variance of the terms in the sum is dying off so quickly in $n$ that $s_n = 1$ for every $n$ . For fixed $n$ , we also have that the $X_{i,n}$ are iid. Thus, the condition is equivalent to

n E [X_{1, n} - 1 / n]^{2} I (| X_{1, n} - 1 / n | > ϵ) \to 0.

$n\mathbb E[X_{1,n} - 1/n]^2I(\vert X_{1,n} - 1/n \vert >\epsilon) \to 0.$

But, for small $\epsilon$ and large $n$ ,

\begin{aligned} n E [X_{1, n} - 1 / n]^{2} I (| X_{1, n} - 1 / n | > ϵ) & > n ϵ^{2} P (X_{1, n} > 0) \\ = ϵ^{2} n [1 - e^{- 1 / n}] \\ = ϵ^{2} n [1 - (1 - 1 / n + o (1 / n))] \\ = ϵ^{2} + o (1), \end{aligned}

$\begin{align} n\mathbb E[X_{1,n} - 1/n]^2I(\vert X_{1,n} - 1/n \vert >\epsilon) &>n\epsilon^2P(X_{1,n}>0) \\ &=\epsilon^2n[1 - e^{-1/n}] \\ &= \epsilon^2n[1-(1 - 1/n + o(1/n))] \\ &= \epsilon^2 + o(1), \end{align}$

which does not approach zero. Thus, the condition fails to hold. Again, this is as expected since we already know the exact distribution of $S_n$ for every $n$ , but going through these calculations gives some indications of why it fails: if the variance didn't die off as quickly in $n$ you could have the condition hold.

ekvall
источник

+1 This nicely illuminates a comment by @AlexR to the question, too.

whuber