Допустим, у меня есть следующие цифры:
4,3,5,6,5,3,4,2,5,4,3,6,5
Я выбираю некоторые из них, скажем, 5 из них, и вычисляю сумму 5 образцов. Затем я повторяю это снова и снова, чтобы получить много сумм, и я отображаю значения сумм в гистограмме, которая будет гауссовой из-за центральной предельной теоремы.
Но когда они следуют за числами, я просто заменил 4 большим числом:
4,3,5,6,5,3,10000000,2,5,4,3,6,5
Суммы выборки из 5 выборок из них никогда не становятся гауссовскими в гистограмме, но больше похожи на расщепление и становятся двумя гауссианами. Почему это?
Ответы:
Напомним точно, что говорит центральная предельная теорема.
Это часто используется в «неформальной» форме:
Нет хорошего способа сделать эту форму CLT математически точной, так как «предельное» распределение меняется, но это полезно на практике.
Когда у нас есть статический список чисел, таких как
и мы производим выборку, выбирая случайное число из этого списка, чтобы применить центральную предельную теорему, мы должны быть уверены, что наша схема выборки удовлетворяет этим двум условиям независимости и одинаково распределена.
Итак, если мы используем заменяющую выборку в вашей схеме, тогда мы сможем применить центральную предельную теорему. В то же время, вы правы, если наша выборка имеет размер 5, тогда мы увидим очень разное поведение в зависимости от того, выбрано или не выбрано очень большое число в нашей выборке.
Так в чем же проблема? Что ж, скорость сходимости к нормальному распределению очень зависит от формы популяции, из которой мы отбираем образцы, в частности, если наша популяция очень асимметрична, мы ожидаем, что для ее сближения потребуется много времени. Это имеет место в нашем примере, поэтому мы не должны ожидать, что выборка размера 5 достаточна, чтобы показать нормальную структуру.
Выше я повторил ваш эксперимент (с заменой выборки) для выборок размером 5, 100 и 1000. Вы можете видеть, что нормальная структура возникает для очень больших выборок.
(*) Обратите внимание, что здесь необходимы некоторые технические условия, такие как конечное среднее и дисперсия. Они легко подтверждаются в нашей выборке из списка примеров.
источник
В общем, размер каждой выборки должен быть больше чтобы приближение CLT было хорошим. Эмпирическое правило - это образец размером или более. Но, с населением вашего первого примера, в порядке.5 30 5
В вашем втором примере, из-за формы распределения населения (с одной стороны, это слишком много перекос, читать комментарии от парня и Glen_b сильфона), даже образцы размером не даст вам хорошее приближение для распределения выборка означает использование CLT.30
Но с этим вторым населением, образцы, скажем, размера в порядке.100
источник
Я просто хотел бы объяснить, используя сложные функции генерации кумулянта , почему все продолжают обвинять это в искажении.
Давайте напишем случайную переменную, которую вы выбираете, как , где - среднее значение, а - стандартное отклонение, поэтому имеет среднее значение и дисперсию . Производящая кумулянт функция имеет вид . Здесь обозначает перекос ; мы могли бы написать это в терминах перекоса исходной переменной , а именно. .μ+σZ μ σ Z 0 1 Z −12t2−iγ16t3+o(t3) γ1 Z κ3 μ+σZ γ1=σ−3κ3
Если мы разделим сумму выборок распределения на , результат будет иметь вид cgfЧтобы нормальное приближение действовало при достаточно большом чтобы график выглядел правильно, нам нужно достаточно большое . Этот расчет мотивирует . Два рассмотренных вами образца имеют очень разные значения .n Z n−−√ n(−12(tn−−√)2−iγ16(tn−−√)3)+o(t3)=−12t2−iγ16n−−√t3+o(t3). t n n∝γ21 γ1
источник
Короткий ответ: у вас недостаточно большой выборки, чтобы применить центральную предельную теорему.
источник