Некоторые книги утверждают , образец размер размер 30 или выше , необходимо для центральной предельной теоремы , чтобы дать хорошее приближение для .
Я знаю, что этого недостаточно для всех дистрибутивов.
Я хотел бы увидеть некоторые примеры распределений, где даже при большом размере выборки (возможно, 100 или 1000 или выше) распределение среднего значения выборки все еще довольно искажено.
Я знаю, что видел такие примеры раньше, но не могу вспомнить, где и не могу их найти.
Ответы:
Это общее правило практически бесполезно. Существуют ненормальные распределения, для которых n = 2 подойдет, и ненормальные распределения, для которых гораздо больший недостаточен - поэтому без явного ограничения обстоятельств правило вводит в заблуждение. В любом случае, даже если бы это было правдой, требуемое n будет варьироваться в зависимости от того, что вы делаете. Часто вы получаете хорошие аппроксимации вблизи центра распределения при малых n , но для получения достойного приближения в хвосте нужно гораздо большее n .n n n n
Изменить: см. Ответы на этот вопрос для многочисленных, но, по-видимому, единодушных мнений по этому вопросу, а также некоторые хорошие ссылки. Я не буду обдумывать этот вопрос, поскольку вы уже четко это понимаете.
Примеры относительно легко построить; Один простой способ - найти ненормальное делимое на бесконечность распределение и разделить его на части. Если у вас есть тот, который будет приближаться к нормальному, когда вы будете усреднять или суммировать его, начните с границы «близко к нормальному» и делите ее столько, сколько хотите. Так, например:
Рассмотрим гамма-распределение с параметром формы . Возьмите масштаб как 1 (масштаб не имеет значения). Допустим, вы считаете гамму ( α 0 , 1 ) просто «достаточно нормальной». Тогда распределение , для которого необходимо получить 1000 наблюдений , чтобы быть достаточно нормальным имеет Gamma ( α 0 / 1000 , 1 ) распределение.α Gamma(α0,1) Gamma(α0/1000,1)
Так что, если вы чувствуете, что гамма с является просто «достаточно нормальной» -α=20
Затем разделите на 1000, чтобы получить α = 0,02 :α=20 α=0.02
В среднем 1000 из них будут иметь форму первого pdf (но не его масштаб).
точка зрения @ whuber о загрязненных дистрибутивах очень хорошая; возможно, стоит попробовать какую-то симуляцию с этим случаем и посмотреть, как обстоят дела со многими такими образцами.
источник
источник
Вы можете найти этот документ полезным (или хотя бы интересным):
http://www.umass.edu/remp/Papers/Smith&Wells_NERA06.pdf
Исследователи из UMass фактически провели исследование, подобное тому, что вы просите. При каком размере выборки определенные распределенные данные соответствуют нормальному распределению из-за CLT? По-видимому, многие данные, собранные для психологических экспериментов, не распределены нормально, поэтому дисциплина в значительной степени полагается на CLT, чтобы сделать какие-либо выводы по их статистике.
Как ни странно, 65 процентов нормально распределенных данных были отклонены с размером выборки 20, и даже с размером выборки 30, 35% все еще были отклонены.
Затем они протестировали несколько сильно искаженных дистрибутивов, созданных с использованием метода мощности Флейшмана:
X представляет значение, полученное из нормального распределения, в то время как a, b, c и d являются константами (обратите внимание, что a = -c).
Они провели испытания с размерами выборки до 300
Они обнаружили, что при самых высоких уровнях перекоса и курта (1,75 и 3,75), что размеры выборки 300 не дают средств выборки, которые следуют нормальному распределению.
К сожалению, я не думаю, что это именно то, что вы ищете, но я наткнулся на это и нашел это интересным, и подумал, что вы тоже можете.
источник