Почему центральная предельная теорема работает с одним образцом?

12

Меня всегда учили, что CLT работает, когда вы повторяете выборку, причем каждая выборка достаточно велика. Например, представьте, что у меня есть страна с 1 000 000 граждан. Мое понимание CLT состоит в том, что даже если распределение их высот было ненормальным, если я взял 1000 выборок из 50 человек (т.е. провел 1000 опросов по 50 граждан в каждой), а затем рассчитал их средний рост для каждой выборки, распределение этих выборок значит было бы нормально.

Тем не менее, я никогда не видел случая, чтобы исследователи брали повторные образцы. Вместо этого они берут одну большую выборку (т. Е. Опрашивают 50 000 граждан об их росте) и работают на этом.

Почему книги по статистике учат повторной выборке, а в реальном мире исследователи проводят только одну выборку?

Редактировать: реальный случай, о котором я думаю, - это статистика по набору данных из 50 000 пользователей Твиттера. Этот набор данных, очевидно, не является повторяющимися выборками, это всего лишь одна большая выборка из 50000.

Антон
источник
Взятие пробы 1000 из 50000 - это почти то же самое, что взятие 1000 единичных проб независимо от 50000. Чем меньше выборка (или больше вселенная), тем больше они будут выглядеть одинаково.
Томас Ахл

Ответы:

14

CLT (по крайней мере в некоторых из его различных форм) говорит нам , что в пределе при распределения единого стандартизированного образца средних ( ) сходится к нормальному распределению (при некоторых условиях).NИкс¯-μσ/N

CLT не говорит нам, что происходит при или .Nзнак равно50Nзнак равно50,000

Но, пытаясь мотивировать CLT, особенно когда не предлагается никаких доказательств CLT, некоторые люди полагаются на выборочное распределение для конечных выборок и показывают, что при взятии более крупных выборок распределение выборки становится ближе к обычный.Икс¯

Строго говоря, это не демонстрация CLT, это ближе к демонстрации теоремы Берри-Эссеена, поскольку она демонстрирует кое-что о скорости, с которой приходит подход к нормальности - но это, в свою очередь, приведет нас к CLT, поэтому служит достаточно хорошо в качестве мотивации (и на самом деле, часто что-то вроде Берри-Эссеена в любом случае ближе к тому, что люди действительно хотят использовать в конечных выборках, так что мотивация может в некотором смысле быть более полезной на практике, чем сама центральная предельная теорема) ,

Распределение этих выборочных средств будет нормальным.

Ну, нет, они были бы ненормальными, но на практике они были бы очень близки к нормальным (высоты немного наклонены, но не очень наклонены).

[Отметьте еще раз, что CLT действительно ничего не говорит нам о поведении выборочных средних для ; это то, к чему я стремился в моем предыдущем обсуждении Берри-Эссеена, в котором говорится о том, насколько далека от нормальной cdf функция распределения стандартизированных средних для конечных выборок]Nзнак равно50

Реальный пример, о котором я думаю, - это статистика по набору данных из 50 000 пользователей Твиттера. Этот набор данных, очевидно, не является повторяющимися выборками, это всего лишь одна большая выборка из 50000.

Для многих дистрибутивов среднее значение выборки из 50 000 элементов будет очень близко к нормальному распределению - но это не гарантируется, даже при n = 50 000, что у вас будет очень близко к нормальному распределению (если распределение отдельных элементов достаточно например, при искажении распределение выборочных средних может быть достаточно искаженным, чтобы сделать нормальное приближение несостоятельным).

(Теорема Берри-Эссеена привела бы нас к тому, что мы можем предвидеть, что именно эта проблема может возникнуть - и это наглядно происходит. Легко привести примеры, к которым применяется CLT, но для которых n = 50000 не является достаточно большой выборкой для стандартизированный образец означает быть близким к нормальному.)

Glen_b - Восстановить Монику
источник
Чтобы проверить, достаточно ли 50 000, можно сделать симуляцию в R, например, правильно? Я бы использовал среднее значение и стандартное отклонение выборки, но как бы я смог смоделировать из того же распределения моей выборки?
Амонет
Строго говоря, нужно моделировать распределение населения. Вы можете рассматривать распределение вашей выборки как оценку распределения населения (это похоже на самозагрузку), но этого не будет достаточно для такой цели. В качестве примера рассмотрим выборку из распределения Коши, а затем повторную выборку из распределения с заменой. (для все более крупных выборок), пока распределение пересчитанных средних не покажется «достаточно нормальным». Вы всегда будете делать вывод, что некоторого конечного размера выборки достаточно, но на самом деле этого никогда не будет.
Glen_b