Меня всегда учили, что CLT работает, когда вы повторяете выборку, причем каждая выборка достаточно велика. Например, представьте, что у меня есть страна с 1 000 000 граждан. Мое понимание CLT состоит в том, что даже если распределение их высот было ненормальным, если я взял 1000 выборок из 50 человек (т.е. провел 1000 опросов по 50 граждан в каждой), а затем рассчитал их средний рост для каждой выборки, распределение этих выборок значит было бы нормально.
Тем не менее, я никогда не видел случая, чтобы исследователи брали повторные образцы. Вместо этого они берут одну большую выборку (т. Е. Опрашивают 50 000 граждан об их росте) и работают на этом.
Почему книги по статистике учат повторной выборке, а в реальном мире исследователи проводят только одну выборку?
Редактировать: реальный случай, о котором я думаю, - это статистика по набору данных из 50 000 пользователей Твиттера. Этот набор данных, очевидно, не является повторяющимися выборками, это всего лишь одна большая выборка из 50000.
Ответы:
CLT (по крайней мере в некоторых из его различных форм) говорит нам , что в пределе при распределения единого стандартизированного образца средних ( ) сходится к нормальному распределению (при некоторых условиях).n → ∞ Икс¯- μσ/ н√
CLT не говорит нам, что происходит при или .п = 50 п = 50 , 000
Но, пытаясь мотивировать CLT, особенно когда не предлагается никаких доказательств CLT, некоторые люди полагаются на выборочное распределение для конечных выборок и показывают, что при взятии более крупных выборок распределение выборки становится ближе к обычный.Икс¯
Строго говоря, это не демонстрация CLT, это ближе к демонстрации теоремы Берри-Эссеена, поскольку она демонстрирует кое-что о скорости, с которой приходит подход к нормальности - но это, в свою очередь, приведет нас к CLT, поэтому служит достаточно хорошо в качестве мотивации (и на самом деле, часто что-то вроде Берри-Эссеена в любом случае ближе к тому, что люди действительно хотят использовать в конечных выборках, так что мотивация может в некотором смысле быть более полезной на практике, чем сама центральная предельная теорема) ,
Ну, нет, они были бы ненормальными, но на практике они были бы очень близки к нормальным (высоты немного наклонены, но не очень наклонены).
[Отметьте еще раз, что CLT действительно ничего не говорит нам о поведении выборочных средних для ; это то, к чему я стремился в моем предыдущем обсуждении Берри-Эссеена, в котором говорится о том, насколько далека от нормальной cdf функция распределения стандартизированных средних для конечных выборок]п = 50
Для многих дистрибутивов среднее значение выборки из 50 000 элементов будет очень близко к нормальному распределению - но это не гарантируется, даже при n = 50 000, что у вас будет очень близко к нормальному распределению (если распределение отдельных элементов достаточно например, при искажении распределение выборочных средних может быть достаточно искаженным, чтобы сделать нормальное приближение несостоятельным).
(Теорема Берри-Эссеена привела бы нас к тому, что мы можем предвидеть, что именно эта проблема может возникнуть - и это наглядно происходит. Легко привести примеры, к которым применяется CLT, но для которых n = 50000 не является достаточно большой выборкой для стандартизированный образец означает быть близким к нормальному.)
источник