Я знаю, что это довольно горячая тема, на которую никто не может дать простой ответ. Тем не менее мне интересно, если следующий подход не может быть полезным.
Метод начальной загрузки полезен только в том случае, если ваша выборка более или менее (читай точно) соответствует тому же распределению, что и исходная совокупность. Чтобы быть уверенным в этом, вам нужно сделать размер выборки достаточно большим. Но что достаточно велико?
Если моя предпосылка верна, у вас та же проблема при использовании центральной предельной теоремы для определения среднего значения популяции. Только когда размер вашей выборки достаточно велик, вы можете быть уверены, что совокупность вашей выборки означает, что она нормально распределена (вокруг средней совокупности). Другими словами, ваши образцы должны достаточно хорошо представлять вашу популяцию (распределение). Но опять же, что достаточно велико?
В моем случае (административные процессы: время, необходимое для удовлетворения спроса в сравнении с количеством требований), у меня есть популяция с мультимодальным распределением (все требования, завершенные в 2011 году), из которых я на 99% уверен, что она еще меньше обычно распределено, чем население (все требования, которые выполнены между сегодняшним днем и прошлым днем, в идеале этот промежуток времени как можно меньше), я хочу исследовать
Моя популяция 2011 года существует из достаточного количества единиц, чтобы сделать выборок размером . Я выбираю значение , предположим, ( ). Теперь я использую метод проб и ошибок, чтобы определить хороший размер выборки. Я беру и проверяю, нормально ли распределена моя выборочная средняя популяция, используя Колмогорова-Смирнова. Если это так, я повторяю те же шаги, но с размером выборки , если не повторяю с размером выборки (и т. Д.).
Через некоторое время я пришел к выводу, что - это абсолютный минимальный размер выборки, чтобы получить более или менее хорошее представление о моей популяции в 2011 году. Так как я знаю, что моя популяция интереса (все требования, которые выполняются между сегодняшним днем и прошлым днем) имеет меньшую дисперсию, я могу смело использовать размер выборки для начальной загрузки. (Косвенно определяет размер моего временного промежутка: время, необходимое для выполнения требований.)
Это, в общем, моя идея. Но так как я не статистик, а инженер, чьи уроки статистики проходили в те времена, я не могу исключить возможность, что я просто произвел много мусора :-). Ребята, что вы думаете? Если моя предпосылка имеет смысл, нужно ли выбирать больше или меньше? В зависимости от ваших ответов (мне нужно смущаться или нет? :-) Я буду публиковать еще несколько идей для обсуждения.
ответ на первый ответ Спасибо за ответ, Ваш ответ был очень полезным для меня, особенно ссылки на книги.
Но я боюсь, что, пытаясь дать информацию, я полностью затуманил свой вопрос. Я знаю, что образцы начальной загрузки принимают распределение выборки популяции. Я полностью следую за тобой, но ...
Ваша исходная выборка населения должна быть достаточно большой, чтобы иметь умеренную уверенность в том, что распределение вашей выборки населения соответствует (равнозначно) «реальному» распределению населения.
Это просто идея о том, как определить, насколько большим должен быть ваш первоначальный размер выборки, чтобы быть уверенным в том, что распределение выборки соответствует распределению населения.
Предположим, у вас бимодальное распределение населения, и одна вершина намного больше другой. Если размер выборки равен 5, велика вероятность того, что все 5 единиц имеют значение, очень близкое к большой вершине (вероятность случайного объявления единицы, в которой она находится, самая большая). В этом случае ваше распределение образцов будет выглядеть мономодальным.
С размером выборки в сотню вероятность того, что ваше распределение выборки также будет бимодальным, намного больше !! Проблема с начальной загрузкой заключается в том, что у вас есть только один образец (и вы строите его дальше). Если выборочное распределение действительно не соответствует распределению населения, у вас проблемы. Это просто идея сделать так, чтобы «плохое распределение выборок» было как можно ниже, без необходимости делать размер выборки бесконечно большим.
источник
проверка байесовской начальной загрузки, которая может справиться с небольшим размером выборки. См. Http://www.sumsar.net/blog/2015/04/the-non-parametric-bootstrap-as-a-bayesian-model/ для получения более подробной информации.
источник