Я много раз читал / слышал, что размер выборки, по крайней мере, 30 единиц, считается «большой выборкой» (предположения о нормальности средств обычно приблизительно соответствуют CLT, ...). Поэтому в своих экспериментах я обычно генерирую образцы по 30 единиц. Можете ли вы дать мне некоторые ссылки, которые должны быть указаны при использовании выборки размером 30?
43
Ответы:
Выбор n = 30 для границы между малыми и большими выборками является практическим правилом. Существует большое количество книг, в которых указывается (около) это значение, например, « Вероятность и статистический вывод» Хогга и Таниса (7e) гласит «больше 25 или 30».
Тем не менее , история , рассказанная мне в том , что единственная причина , по 30 была расценена как хорошая граница потому , что он сделал для хорошенького Стьюдента т таблиц в задней части учебников хорошо помещаются на одной странице. Это и критические значения (между t и нормальным Стьюдентом ) отключаются только примерно до 0,25, в любом случае, от df = 30 до df = бесконечность. Для ручного вычисления разница не имела большого значения.
В настоящее время легко вычислить критические значения для всех видов вещей до 15 знаков после запятой. Кроме того, у нас есть методы передискретизации и перестановки, для которых мы даже не ограничены параметрическим распределением населения.
На практике я никогда не полагаюсь на n = 30. График данных. Наложите нормальное распределение, если хотите. Визуально оцените, подходит ли нормальное приближение (и спросите, действительно ли приближение действительно необходимо). Если генерация выборок для исследования и аппроксимация обязательна, сгенерируйте достаточно размера выборки, чтобы аппроксимация была как можно ближе (или настолько близка, насколько это возможно в вычислительном отношении).
источник
На самом деле, «магическое число» 30 - заблуждение. См. Восхитительную статью Джейкоба Коэна « Вещи , которые я узнал (до сих пор)» (Am. Psych. December 1990 45 # 12, стр. 1304-1312) . Этот миф - его первый пример того, как «некоторые вещи, которые вы изучаете, не таковы».
источник
ИМО, все зависит от того, для чего вы хотите использовать свой образец. Два «глупых» примера для иллюстрации того, что я имею в виду: если вам нужно оценить среднее значение, 30 наблюдений более чем достаточно. Если вам необходимо оценить линейную регрессию с помощью 100 предикторов, 30 наблюдений не будет достаточно близко.
источник
В более общем смысле, CLT нужно, по существу, два столпа для удержания:
(Оба эти условия могут быть несколько ослаблены, но различия носят в основном теоретический характер)
источник