Метод начальной загрузки получил широкое распространение в последние годы, я также часто его использую, особенно потому, что обоснование довольно интуитивно понятно.
Но это одна вещь, которую я не понимаю. Почему Efron решил выполнить повторную выборку с заменой, а не просто субсэмплирование путем случайного включения или исключения отдельных наблюдений?
Я думаю, что случайная подвыборка имеет одно очень хорошее качество, которое идеально отражает реальную жизненную ситуацию, в которой наблюдения, которые мы проводим в нашем исследовании, являются подмножеством гипотетической популяции. Я не вижу преимущества в увеличении количества наблюдений во время повторной выборки. В реальном контексте ни одно наблюдение не похоже на другое, особенно для сложных многомерных ситуаций.
источник
Ответы:
Один из способов понять этот выбор - думать о представленной выборке как о наилучшем представлении основной популяции. У вас может не быть всей популяции для выборки, но у вас есть это конкретное представление населения. По-настоящему случайная повторная выборка из этого представления населения означает, что вы должны произвести выборку с заменой, иначе ваша последующая выборка будет зависеть от результатов вашей первоначальной выборки. Наличие повторного случая в конкретной выборке начальной загрузки представляет членов основной популяции, которые имеют характеристики, близкие к характеристикам этого конкретного повторного случая. Как вы предлагаете, также можно использовать подходы «оставь один» или «оставь несколько», но это скорее перекрестная проверка, чем самозагрузка.
Я думаю, что это в значительной степени просто помещает в другие слова комментарий от @kjetil_b_halvorsen
источник