Определение размера выборки, необходимого для метода начальной загрузки / Предлагаемый метод

33

Я знаю, что это довольно горячая тема, на которую никто не может дать простой ответ. Тем не менее мне интересно, если следующий подход не может быть полезным.

Метод начальной загрузки полезен только в том случае, если ваша выборка более или менее (читай точно) соответствует тому же распределению, что и исходная совокупность. Чтобы быть уверенным в этом, вам нужно сделать размер выборки достаточно большим. Но что достаточно велико?

Если моя предпосылка верна, у вас та же проблема при использовании центральной предельной теоремы для определения среднего значения популяции. Только когда размер вашей выборки достаточно велик, вы можете быть уверены, что совокупность вашей выборки означает, что она нормально распределена (вокруг средней совокупности). Другими словами, ваши образцы должны достаточно хорошо представлять вашу популяцию (распределение). Но опять же, что достаточно велико?

В моем случае (административные процессы: время, необходимое для удовлетворения спроса в сравнении с количеством требований), у меня есть популяция с мультимодальным распределением (все требования, завершенные в 2011 году), из которых я на 99% уверен, что она еще меньше обычно распределено, чем население (все требования, которые выполнены между сегодняшним днем ​​и прошлым днем, в идеале этот промежуток времени как можно меньше), я хочу исследовать

Моя популяция 2011 года существует из достаточного количества единиц, чтобы сделать выборок размером . Я выбираю значение , предположим, ( ). Теперь я использую метод проб и ошибок, чтобы определить хороший размер выборки. Я беру и проверяю, нормально ли распределена моя выборочная средняя популяция, используя Колмогорова-Смирнова. Если это так, я повторяю те же шаги, но с размером выборки , если не повторяю с размером выборки (и т. Д.).xnx10x=10n=504060

Через некоторое время я пришел к выводу, что - это абсолютный минимальный размер выборки, чтобы получить более или менее хорошее представление о моей популяции в 2011 году. Так как я знаю, что моя популяция интереса (все требования, которые выполняются между сегодняшним днем ​​и прошлым днем) имеет меньшую дисперсию, я могу смело использовать размер выборки для начальной загрузки. (Косвенно определяет размер моего временного промежутка: время, необходимое для выполнения требований.)n=45n=45n=4545

Это, в общем, моя идея. Но так как я не статистик, а инженер, чьи уроки статистики проходили в те времена, я не могу исключить возможность, что я просто произвел много мусора :-). Ребята, что вы думаете? Если моя предпосылка имеет смысл, нужно ли выбирать больше или меньше? В зависимости от ваших ответов (мне нужно смущаться или нет? :-) Я буду публиковать еще несколько идей для обсуждения.x10

ответ на первый ответ Спасибо за ответ, Ваш ответ был очень полезным для меня, особенно ссылки на книги.
Но я боюсь, что, пытаясь дать информацию, я полностью затуманил свой вопрос. Я знаю, что образцы начальной загрузки принимают распределение выборки популяции. Я полностью следую за тобой, но ...

Ваша исходная выборка населения должна быть достаточно большой, чтобы иметь умеренную уверенность в том, что распределение вашей выборки населения соответствует (равнозначно) «реальному» распределению населения.

Это просто идея о том, как определить, насколько большим должен быть ваш первоначальный размер выборки, чтобы быть уверенным в том, что распределение выборки соответствует распределению населения.

Предположим, у вас бимодальное распределение населения, и одна вершина намного больше другой. Если размер выборки равен 5, велика вероятность того, что все 5 единиц имеют значение, очень близкое к большой вершине (вероятность случайного объявления единицы, в которой она находится, самая большая). В этом случае ваше распределение образцов будет выглядеть мономодальным.

С размером выборки в сотню вероятность того, что ваше распределение выборки также будет бимодальным, намного больше !! Проблема с начальной загрузкой заключается в том, что у вас есть только один образец (и вы строите его дальше). Если выборочное распределение действительно не соответствует распределению населения, у вас проблемы. Это просто идея сделать так, чтобы «плохое распределение выборок» было как можно ниже, без необходимости делать размер выборки бесконечно большим.

Зигфрид
источник

Ответы:

38

Я заинтересовался этим вопросом, потому что увидел слово «начальной загрузки» и написал книги по начальной загрузке. Также люди часто спрашивают: «Сколько образцов начальной загрузки мне нужно, чтобы получить хорошее приближение Монте-Карло к результату начальной загрузки?» Мой предложенный ответ на этот вопрос - продолжать увеличивать размер до тех пор, пока вы не получите сходимость. Ни один номер не подходит для всех проблем.

Но это, очевидно, не тот вопрос, который вы задаете. Похоже, вы спрашиваете, какой должен быть исходный размер выборки, чтобы загрузчик работал. Прежде всего, я не согласен с вашей предпосылкой. Основной непараметрический бутстреп предполагает, что выборка выбирается случайным образом из популяции. Таким образом, для любого размера выборки распределение для выборок, выбранных случайным образом, является распределением выборки, предполагаемым при начальной загрузке. Принцип начальной загрузки гласит, что выбор случайной выборки размера из совокупности можно имитировать, выбрав выборку начальной загрузки размераnnnиз оригинального образца. То, имеет ли место принцип бутстрапа, не зависит от какой-либо отдельной выборки, «выглядящей представителем населения». От этого зависит то, что вы оцениваете, и некоторые свойства распределения населения (например, это работает для выборки средних с распределениями населения, которые имеют конечные отклонения, но не тогда, когда они имеют бесконечные отклонения). Это не будет работать для оценки крайностей независимо от распределения населения.

Теория бутстрапа предполагает демонстрацию согласованности оценки. Таким образом, теоретически можно показать, что он работает для больших выборок. Но это также может работать в небольших выборках. Я видел, как это работает для оценки частоты ошибок классификации, особенно хорошо при небольших размерах выборки, таких как 20 для двумерных данных.

Теперь, если размер выборки очень маленький - скажем, 4 - загрузчик может не сработать только потому, что набор возможных примеров начальной загрузки недостаточно богат. В моей книге или книге Питера Холла обсуждается этот вопрос о слишком малом размере выборки. Но это число различных примеров начальной загрузки очень быстро увеличивается. Так что это не проблема даже для размеров выборки, таких как 8. Вы можете взглянуть на эти ссылки:

Майкл Р. Черник
источник
3
Существует ли какой-либо стандартный тест для проверки, если его (например, 4 образца) недостаточно? У меня есть набор данных, где я рассчитываю доверительные интервалы для среднего значения, но у некоторых людей очень мало точек данных (<8 в некоторых случаях). Мой инстинкт подсказывает мне, что я должен игнорировать людей, у которых меньше n точек данных, но тогда как мне определить этот предел n? Я надеялся найти общепринятую величину отсечения (аналогично тому, как 6 или 7 - произвольная точка отсечения для количества образцов на группу в анализе смешанной модели).
RTbecard