При использовании начальной загрузки для оценки модели я всегда думал, что образцы из пакета были непосредственно использованы в качестве тестового набора. Однако, похоже, что это не относится к устаревшему подходу scikit-learnBootstrap
, который, похоже, строит тестовый набор из чертежа с заменой из подмножества данных из пакета. Что за статистическое обоснование этого? Существуют ли конкретные сценарии, в которых этот метод лучше, чем просто оценка на выборке из пакета или наоборот?
15
Ответы:
Образцы начальной загрузки используются для оценки производительности алгоритма по многим итерациям. При этом оценивается производительность на случайно измененных наборах.
В отличие от этого, например, при выполнении 10-кратной перекрестной проверки вы выполняете только 10 итераций для различных наборов данных поезда и теста.
Теперь, когда размер вашей выборки мал, скажем, а число итераций начальной загрузки велико, давайте выберем , и вы не будете пересчитывать свои тестовые данные, как при работе с набором данных о поездах, у вас будут ситуации, когда Алгоритм видит один и тот же или очень похожий тест более одного раза. Ситуация, которую вы изначально хотели избежать с помощью начальной загрузки.n=20 i=10,000
Ссылка, которую вы постете, недоступна, поэтому я добавил описание функции в текущей (0.14) версии sklearn
Описание метода
источник
Возможно, вы были на что-то. Похоже, что другие потянулись за тем же потоком и
Bootstrap
были признаны устаревшими в пользу более преднамеренного использованияresample
метода с проверенными и истиннымиsklearn.cross_validation
подходами, такими какStratifiedKFold
.источник