Объяснение мирянам, почему работает самозагрузка

326

Недавно я использовал начальную загрузку для оценки доверительных интервалов для проекта. Кто-то, кто мало знает о статистике, недавно попросил меня объяснить, почему работает самозагрузка, т. Е. Почему повторная выборка одной и той же выборки снова и снова дает хорошие результаты. Я понял, что хотя я потратил много времени, чтобы понять, как его использовать, я не совсем понимаю, почему работает самозагрузка.

В частности: если мы проводим повторную выборку из нашей выборки, как получается, что мы узнаем что-то о населении, а не только о выборке? Там, кажется, есть скачок, который несколько нелогичен.

Я нашел здесь несколько ответов на этот вопрос, которые я наполовину понимаю. Особенно этот . Я «потребитель» статистики, а не статистик, и я работаю с людьми, которые знают о статистике гораздо меньше, чем я. Итак, может ли кто-нибудь объяснить, с минимумом ссылок на теоремы и т. Д., Основные аргументы в пользу начальной загрузки? То есть, если бы вы объяснили это своему соседу, что бы вы сказали?

Алан Х.
источник
13
(+1) Вы могли бы кратко упомянуть вопросы, на которые вы смотрели, но они не совсем вас удовлетворяют. Здесь много вопросов по начальной загрузке. :)
кардинал
@cardinal Спасибо, я обновил оригинальный пост. Надеюсь, это более понятно. :)
Алан Х.
5
Следует отметить одну вещь - самозагрузка не работает легко для иерархически структурированных данных, таких как многоуровневые модели и многоэтапные схемы выборки. Очень запутанно знать, «какую загрузку» использовать.
вероятностная
2
По сути, бутстрап работает, потому что это непараметрическая максимальная вероятность. Таким образом, когда есть проблемы с максимальной вероятностью, вы можете ожидать проблемы с начальной загрузкой.
kjetil b halvorsen
3
Джейк ВандерПлас в PyCon 16 отлично поговорил о начальной загрузке и некоторых других связанных с этим методах. Смотрите слайды, начиная со слайда 71, и запись видео .
THM

Ответы:

198

Между прочим, версия средней длины, которую я обычно даю, выглядит так:

Вы хотите задать вопрос населению, но не можете. Таким образом, вы берете образец и задаете вопрос об этом. Теперь, насколько вы уверены в том, что выборочный ответ близок к совокупному ответу, очевидно, зависит от структуры населения. Один из способов узнать об этом - снова и снова брать образцы из населения, задавать им вопрос и видеть, насколько изменчивыми были ответы на выборки. Поскольку это невозможно, вы можете либо сделать некоторые предположения о форме населения, либо использовать информацию из выборки, которую вам действительно нужно узнать об этом.

Представьте, что вы решили сделать предположение, например, что это Нормальный, или Бернулли, или какая-то другая удобная выдумка. Следуя предыдущей стратегии, вы можете снова узнать, насколько может отличаться ответ на ваш вопрос, когда вас спрашивают об образце, в зависимости от того, какую именно выборку вы получили, многократно генерируя образцы того же размера, что и у вас, и задавая их одинаково. вопрос. Это было бы просто, если бы вы выбрали удобные в вычислительном отношении допущения. (Действительно, особенно удобные предположения плюс нетривиальная математика могут позволить вам вообще обойти часть выборки, но мы намеренно проигнорируем это здесь.)

Это кажется хорошей идеей, если вы счастливы сделать предположения. Представь, что ты не такой. Альтернатива - взять имеющуюся у вас пробу и взамен ее. Вы можете сделать это, потому что ваша выборка также является популяцией, очень маленькой дискретной; это похоже на гистограмму ваших данных. Выборка «с заменой» - это просто удобный способ обработки выборки как популяции и выборки из нее таким образом, чтобы она отражала ее форму.

Это разумно , потому что выборка у вас не только лучшая, а единственная имеющаяся у вас информация о том, как на самом деле выглядит популяция, но и потому, что большинство выборок, если они выбраны случайным образом, будут выглядеть очень похоже на население они пришли. Следовательно, вероятно, что и вы тоже.

Для интуиции важно подумать о том, как вы могли бы узнать об изменчивости, агрегируя выборочную информацию, которая генерируется различными способами и с различными допущениями. Важно полностью об этом забыть, полностью игнорируя возможность математических решений в замкнутой форме.

conjugateprior
источник
5
Хороший ответ. Особенно мне нравится предпоследний абзац.
Питер Флом
19
(+1) Это хороший ответ. Я думаю, что, возможно, есть способ и дальше выделить очень важный момент. То, как обычно выполняется начальная загрузка, происходит два эффекта. Во-первых, мы притворяемся, что образец, который мы получили, является показателем для нашей популяции. Это формально разумно, если размер нашей выборки достаточно велик. Тем не менее, нам обычно трудно рассчитать фактическое количество процентов из этого притворного распределения. Итак , мы должны оценить их, и именно поэтому мы рисуем много примеров начальной загрузки. Если бы мы могли ... / ...
кардинал
11
... / ... рассчитать интересующие вас количества непосредственно для нашего предполагаемого распределения, мы бы предпочли это сделать. И это был бы настоящий бутстрап. Но, как правило, мы не можем, поэтому вместо этого мы вынуждены пересчитывать данные.
кардинал
8
@ naught101: «Достаточно большой» может быть довольно хорошо определен количественно неравенством DKW (если хотите, вы можете посмотреть мой ответ в ссылке в вопросе ОП), а в отношении лотов это зависит от выборочной статистики, представляющей интерес, но если у нас есть выборок начальной загрузки, то с помощью простой метод Монте-Карло мы знаем, что стандартная ошибка порядка . BO(B1/2)
кардинал
4
@cardinal: Хороший комментарий. Многие люди думают, что начальная загрузка и повторная выборка - это одно и то же, когда на самом деле последний инструмент используется для первого. Сходное заблуждение заключается в том, что многие пользователи статистики обычно путают MCMC и байесовский анализ.
MånsT
122

+1 к @ConjugatePrior, я просто хочу высказать одно замечание, которое подразумевается в его ответе. Вопрос спрашивает: «Если мы делаем повторную выборку из нашей выборки, то как получается, что мы узнаем что-то о населении, а не только о выборке?» Повторная выборка не проводится для оценки распределения населения - мы берем нашу выборку в качестве модели населения. Скорее, повторная выборка проводится для оценки распределения выборки рассматриваемой статистики выборки.

банда
источник
10
(+1) Это близко к тому, что я пытался сделать в комментарии к ответу ConjugatePrior, хотя вы изложили его более кратко и четко. В некоторых особых случаях мы можем рассчитать выборочное распределение тестовой статистики точно по эмпирическому распределению, полученному из выборки . Но, как правило, мы не можем и поэтому вынуждены симулировать. :)
кардинал
7
Я вижу, поэтому, если я вас понимаю, то этот метод предполагает, что выборка является адекватной моделью совокупности, и, следовательно, что повторная выборка в этой выборке в достаточно большом масштабе покажет что-то о совокупности, но только в той степени, в которой Оригинальный образец хороший. Теперь, когда я так выразился, это кажется почти очевидным ...
Алан Х.
4
@AlanH., Я просто хочу изменить «... что-то рассказать о населении » на «... покажет что-то о распределении выборки » (рассматриваемой статистики, например, среднее значение). Но, да, у вас это есть
gung
Вы все правильно, конечно. Лично и исключительно по педагогическим соображениям я сохраняю этот пункт для моей «более длинной версии», потому что в моей конкретной аудитории этот пункт имеет тенденцию выбивать из равновесия их молодую и все еще неустойчивую интуицию, если применять ее слишком рано.
сопряженный
3
@ErosRam, начальная загрузка должна определить распределение выборки чего-либо. Вы можете сделать это для выборочной статистики (например, 56-й процентиль) или тестовой статистики (t) и т. Д. В моем биномиальном примере распределение выборки, очевидно, будет 0 голов - 25%; 1 голова - 50%; 2 головы - 25%; это ясно без повторной выборки. У кардинала есть где-то комментарий, который объясняет это (многие из лучших ответов на сайте - это комментарии кардинала), но трудно найти, потому что это комментарий.
gung
43

Это, вероятно, более техническое объяснение, предназначенное для людей, которые понимают некоторые статистические данные и математику (по крайней мере, исчисление). Вот слайд из курса по начальной загрузке, который я преподавал некоторое время назад:

принцип начальной загрузки

Конечно, нужны некоторые объяснения. - это процедура для получения статистики из существующих данных (или, если быть точным, с технической точки зрения, функционала от функции распределения до действительных чисел; например, среднее значение равно , где для функции распределения выборки , понимается как точечная масса в точке выборки). В популяции, обозначаемой , применение дает интересующий параметр . Теперь мы взяли образец (первая стрелка вверху) и имеем эмпирическую функцию распределения - к ней мы применяем чтобы получить оценкуTE[X]=xdFFn()dFF()TθFn()Tθ^n . Интересно, насколько это далеко от ? Какое распределение может иметь случайное количество вокруг ? Это вопросительный знак в левом нижнем углу диаграммы, и на этот вопрос пытается ответить начальная загрузка. Если перефразировать точку зрения Ганга, то это не вопрос о населении, а вопрос о конкретной статистике и ее распределении.θθ^nθ

Если бы мы могли повторить нашу процедуру выборки, мы могли бы получить это распределение и узнать больше. Ну, это обычно за пределами наших возможностей. Однако если

  1. Fn достаточно близко к , в подходящем смысле, иF
  2. отображение достаточно гладкое, т. е. если мы возьмем небольшие отклонения от , результаты будут сопоставлены с числами, близкими к ,TF()θ

мы можем надеяться, что процедура начальной загрузки будет работать. А именно, мы притворяемся, что наше распределение а не , и с этим мы можем развлекать все возможные выборки - и будет таких выборок, что практично только для . Позвольте мне повторить еще раз: загрузчик работает для создания выборочного распределения вокруг «истинного» параметра , и мы надеемся, что при двух вышеупомянутых условиях это распределение выборки будет информативным о распределении выборки из вокруг :Fn()F()nnn5θ^nθ^nθ^nθ

θ^n to θ^n is like θ^n to θ

Теперь, вместо того, чтобы идти одним путем вдоль стрелок и терять некоторую информацию / точность вдоль этих стрелок, мы можем вернуться и что-то сказать об изменчивости вокруг .θ^nθ^n

Вышеуказанные условия изложены в техническом изложении в книге Холла (1991) . Понимание исчисления, которое я сказал, может потребоваться для того, чтобы посмотреть на этот слайд, - это второе предположение о гладкости: в более формальном языке функционал должен обладать слабой производной. Первое условие, конечно, асимптотическое утверждение: чем больше ваша выборка, тем ближе должен быть к ; и расстояния от до должны быть того же порядка, что и от до . Эти условия могут нарушаться, и они нарушаютTFnFθ^nθ^nθ^nθв ряде практических ситуаций с достаточно странными статистическими данные и / или схемой выборки , которые не производят эмпирические распределения, которые достаточно близки к .F

Теперь, откуда взялись эти 1000 сэмплов, или какое-то магическое число? Это связано с нашей неспособностью отобрать все выборок, поэтому мы просто берем их случайное подмножество. Самая правая «симулирующая» стрелка указывает на другое приближение, которое мы делаем на нашем пути, чтобы получить распределение вокруг , и это означает, что наше моделирование методом Монте-Карло - достаточно хорошее приближение полного начального дистрибутива вокруг .thetas ; п & thetas ; & thetas ; ( * г ) п & thetas ; * п & thetas ; пnnθ^nθθ^n(r)θ^nθ^n

Stask
источник
7
Этот ответ полностью упускает смысл пытаться быть доступным для непрофессиональной аудитории.
Трипартио
20

Я отвечаю на этот вопрос, потому что я согласен, что это трудно сделать, и есть много заблуждений. Эфрон и Диаконис попытались сделать это в своей статье в журнале Scientific American за 1983 год, и, на мой взгляд, им это не удалось. В настоящее время есть несколько книг, посвященных начальной загрузке, которые делают хорошую работу. Эфрон и Тибширани проделали большую работу в своей статье в «Статистической науке» в 1986 году. Я особенно старался сделать загрузчик доступным для практикующего в моей книге по методам начальной загрузки, и мое введение в процесс начальной загрузки с приложениями к книге Р. Холла - это здорово, но очень продвинуто и теоретически. , Тим Хестерберг написал большую дополнительную главу для одной из вводных книг по статистике Дэвида Мура. У покойного Клиффорда Ланнеборга была хорошая книга. Чихара и Хестерберг недавно выпустили книгу по математической статистике среднего уровня, которая описывает начальную загрузку и другие методы повторной выборки. Даже продвинутые книги, такие как Лахири или Шао и Ту, дают хорошие концептуальные объяснения. Мэнли хорошо справляется со своей книгой, в которой рассказывается о перестановках и начальной загрузке. Больше нет причин ломать голову над начальной загрузкой. Важно иметь в виду, что начальная загрузка зависит от принципа начальной загрузки. «Выборка с заменой ведет себя на исходной выборке так же, как исходная выборка ведет себя на совокупности. Существуют примеры, где этот принцип не работает. Важно знать, что загрузчик это не ответ на каждую статистическую проблему. дать хорошие концептуальные объяснения. Мэнли хорошо справляется со своей книгой, в которой рассказывается о перестановках и начальной загрузке. Больше нет причин ломать голову над начальной загрузкой. Важно иметь в виду, что начальная загрузка зависит от принципа начальной загрузки. «Выборка с заменой ведет себя на исходной выборке так же, как исходная выборка ведет себя на совокупности. Существуют примеры, где этот принцип не работает. Важно знать, что загрузчик это не ответ на каждую статистическую проблему. дать хорошие концептуальные объяснения. Мэнли хорошо справляется со своей книгой, в которой рассказывается о перестановках и начальной загрузке. Больше нет причин ломать голову над начальной загрузкой. Важно иметь в виду, что начальная загрузка зависит от принципа начальной загрузки. «Выборка с заменой ведет себя на исходной выборке так же, как исходная выборка ведет себя на совокупности. Существуют примеры, где этот принцип не работает. Важно знать, что загрузчик это не ответ на каждую статистическую проблему. Выборка с заменой ведет себя в исходной выборке так же, как исходная выборка ведет себя в популяции. Есть примеры, где этот принцип не работает. Важно знать, что бутстрап не является ответом на все статистические проблемы. Выборка с заменой ведет себя в исходной выборке так же, как исходная выборка ведет себя в популяции. Есть примеры, где этот принцип не работает. Важно знать, что бутстрап не является ответом на все статистические проблемы.

Вот амазонка ссылки на все книги, которые я упомянул и многое другое.

Математическая статистика с передискретизацией и R

Методы начальной загрузки и их применение

Методы начальной загрузки: руководство для практиков и исследователей

Введение в методы начальной загрузки с приложениями к R

Методы передискретизации для зависимых данных

Методы рандомизации, бутстрапа и Монте-Карло в биологии

Введение в Bootstrap

Руководство по бизнес-статистике Глава 18. Методы начальной загрузки и тесты перестановок

Анализ данных путем повторной выборки: концепции и приложения

Jackknife, Bootstrap и другие планы передискретизации

Джек нож и бутстрап

Перестановочные, параметрические и бутстреп-тесты гипотез

Бутстрап и расширение Эджворта

Майкл Черник
источник
2
@Procrastinator. Я делаю это чаще. в некоторых случаях я спешу опубликовать свой ответ и вернуться, чтобы почистить его позже. Я не умею преобразовывать адреса ссылок в ссылки по названию, и я не уверен, что это все, что нужно. В любом случае, это один щелчок. Но если вы не можете ждать этого, я не возражаю, чтобы вы вносили изменения. На самом деле я ценю это.
Майкл Черник
1
Я собирался изменить свой комментарий на «Я не возражаю против того, чтобы вы делали правки» с удаленным «Но если вы не можете ждать». Я вижу, что то, что вы сделали, аккуратнее и проще и, вероятно, занимает меньше времени, но я просто еще не научился этому, и я не вижу в этом такого большого значения, как это делают некоторые модераторы и другие участники.
Майкл Черник
1
(+1) Я наделяю вас силой в баллов @Майкл Черник. 10,000
Спасибо, прокрастинатор. я ожидал, что, возможно, достигну этой суммы сегодня.
Майкл Черник
10

Посредством начальной загрузки вы просто снова и снова берете выборки из одной и той же группы данных (данных выборки), чтобы оценить, насколько точны ваши оценки по всей совокупности (что действительно существует в реальном мире).

Если вы возьмете одну выборку и сделаете оценки реальной популяции, вы не сможете оценить, насколько точны ваши оценки - у нас есть только одна оценка, и мы не определили, как эта оценка варьируется в зависимости от разных выборок, с которыми мы могли столкнуться.

При начальной загрузке мы используем этот основной пример для генерации нескольких образцов. Например, если мы измеряем прибыль каждый день в течение 1000 дней, мы можем взять случайные выборки из этого набора. Мы можем получить прибыль за один случайный день, записать ее, получить прибыль за другой случайный день (который может оказаться в тот же день, что и раньше - выборка с заменой), записать его и т. Д., Пока мы не получим «новый» образец 1000 дней (из оригинального образца).

Этот «новый» образец не идентичен исходному образцу - на самом деле мы могли бы сгенерировать несколько «новых» образцов, как указано выше. Когда мы смотрим на различия в средствах и оценках, мы можем получить представление о том, насколько точными были исходные оценки.

Изменить - в ответ на комментарий

«Более новые» выборки не идентичны первой, и новые оценки, основанные на них, будут отличаться. Это моделирует повторные выборки населения. Различия в оценках «более новых» выборок, созданных при начальной загрузке, проливают свет на то, как будут варьироваться оценки выборок, учитывая разные выборки из совокупности. Это на самом деле, как мы можем попытаться измерить точность первоначальных оценок.

Конечно, вместо начальной загрузки вы можете взять несколько новых выборок из популяции, но это может оказаться невозможным.

Андрей
источник
5
Спасибо! Это много я понимаю. Мне особенно интересно, как получается, что повторная выборка из выборки населения помогает понять основную популяцию. Если мы делаем повторную выборку из выборки, то как получается, что мы узнаем что-то о населении, а не только о выборке? Там, кажется, есть скачок, который несколько нелогичен.
Алан Х.
4

Я понимаю, что это старый вопрос с принятым ответом, но я хотел бы представить мой взгляд на метод начальной загрузки. Я ни в коем случае не эксперт (в большей степени пользователь статистики, как ОП) и приветствую любые исправления или комментарии.

SiT(Si)

Вместо этого вы можете рассмотреть все подмножества размера 98 и получить JK-2 (удалено 2 элемента) или JK-3 и т. Д.

Теперь, начальная загрузка - просто рандомизированная версия этого. Делая повторную выборку с помощью выбора с заменами, вы «удаляете» случайное количество элементов (возможно, ни одного) и «заменяете» их одной (или более) копиями.

При замене на копии повторный набор данных всегда будет иметь одинаковый размер. Для складного ножа вы можете спросить, каково влияние складывания ножом на образцы размером 99 вместо 100, но если размер выборки «достаточно большой», это, вероятно, не проблема.

В складном ноже вы никогда не смешиваете «delete-1» и «delete-2» и т. Д., Чтобы убедиться в том, что оцененные значения «jacked» взяты из выборок одного размера.

Вы также можете рассмотреть возможность разделения выборки размером 100, например, на 10 выборок размера 10. В некоторых теоретических аспектах это будет чище (независимые подмножества), но уменьшит размер выборки (со 100 до 10) настолько, что будет непрактичным (в большинстве случаев).

Вы также можете рассмотреть частично перекрывающиеся подмножества определенного размера. Все это обрабатывается автоматическим, равномерным и случайным образом методом начальной загрузки.

Кроме того, метод начальной загрузки дает вам оценку выборочного распределения вашей статистики по эмпирическому распределению исходной выборки, так что вы можете проанализировать дополнительные свойства статистики, помимо стандартной ошибки.

dioid
источник
1

Перефразируя Фокса , я хотел бы начать с того, что процесс повторной выборки из вашей наблюдаемой выборки, как было показано, имитирует процесс первоначальной выборки из всей популяции.

N Брауэр
источник
ссылка выше несущественна, поэтому я не знаю, что сказал Фокс. Но ни один из адресов моей озабоченности не говорит о том, что при начальной загрузке возникает ошибка. Предположим, вы хотели узнать об относительной частоте языков на земле. Если вы взяли свой образец из Интернета и просто пересчитали его, вы пропустили бы все языки, которых нет в сети.
Aquagremlin
1

Конечная выборка населения приближается к распределению так же, как гистограмма приближается к нему. Повторная выборка изменяет количество бинов, и вы получаете новое приближение. Значения большого количества колеблются меньше значений малого количества как в исходной популяции, так и в выборочном наборе. Поскольку вы объясняете это непрофессионалу, вы можете утверждать, что для большого количества бинов это примерно квадратный корень из числа бинов в обоих случаях.

2080100(0.2×0.8)×1001:4

Я думаю, что важно подчеркнуть, что при начальной загрузке не выявляются «новые» данные, это просто удобный, непараметрический способ приблизительного определения выборки колебаний, если истинная вероятность определяется выборкой.

user108131
источник
Я внес небольшие изменения в формат вашего ответа - не стесняйтесь отменить их, если вы считаете их неподходящими. Что может потребовать дополнительного разъяснения, почему существует квадратный корень?
Тим
1

Обратите внимание, что в классической логической статистике теоретической сущностью, которая связывает выборку с совокупностью в качестве хорошей оценки совокупности, является распределение выборки (все возможные выборки, которые могут быть взяты из совокупности). Метод начальной загрузки создает своего рода распределение выборок (распределение, основанное на нескольких выборках). Конечно, это метод максимального правдоподобия, но основная логика ничем не отличается от традиционной теории вероятностей, стоящей за классической статистикой на основе нормального распределения.

Доктор Z
источник
0

Моя точка зрения очень крошечная.

Bootstrap работает потому, что в вычислительном отношении интенсивно использует основную предпосылку нашей исследовательской программы.

Чтобы быть более конкретным, в области статистики или биологии, или большинства не теоретических наук, мы изучаем отдельных лиц, собирая таким образом образцы.

Тем не менее, из таких образцов мы хотим сделать выводы о других людях, представляя их нам в будущем или в других образцах.

С помощью начальной загрузки, явно основав наше моделирование на отдельных компонентах нашей выборки, мы можем лучше (обычно с меньшими предположениями) делать выводы и прогнозировать для других людей.

Joe_74
источник
1
Это, похоже, не отличает бутстрап от любой другой статистической процедуры, которая начинается с необработанных данных. Кажется, что это только отличает те процедуры, которые основаны на сводной статистике или частотах бинарных данных.
whuber
0

Объясняя новичкам, я думаю, что это помогает взять конкретный пример ...

Представьте, что у вас есть случайная выборка из 9 измерений из некоторой популяции. Среднее значение по выборке равно 60. Можем ли мы быть уверены, что среднее по всей популяции также составляет 60? Очевидно, что не потому, что небольшие выборки будут отличаться, поэтому оценка 60, вероятно, будет неточной. Чтобы выяснить, как много сэмплов будет варьироваться, мы можем провести несколько экспериментов, используя метод, называемый начальной загрузкой.

Первое число в выборке - 74, а второе - 65, так что давайте представим большую «притворную» популяцию, состоящую из одной девятой 74-х, одной девятой 65-х и так далее. Самый простой способ взять случайную выборку из этой совокупности - это взять случайную цифру из выборки из девяти, затем заменить ее, чтобы снова иметь исходную выборку из девяти, и выбрать другую случайную выборку, и так далее, пока у вас не получится «повторная выборка» из 9. Когда я это сделал, 74 вообще не появлялись, но некоторые другие цифры появлялись дважды, а среднее значение составляло 54,4. (Это настроено в электронной таблице по адресу http://woodm.myweb.port.ac.uk/SL/resample.xlsx - нажмите на вкладку начальной загрузки в нижней части экрана.)

Когда я взял 1000 повторных выборок таким образом, их значения варьировались от 44 до 80, с 95% между 48 и 72. Это говорит о том, что есть ошибка до 16-20 единиц (44 на 16 ниже среднего значения для притворной популяции 60, 80 - это на 20 единиц выше) при использовании выборок размера 9 для оценки среднего населения. и что мы можем быть на 95% уверены, что ошибка будет 12 или меньше. Таким образом, мы можем быть на 95% уверены, что средняя численность населения будет где-то между 48 и 72.

Здесь есть ряд предположений, очевидным из которых является предположение, что выборка дает полезную картину населения - опыт показывает, что в целом это работает хорошо, если выборка достаточно большая (9 немного мала, но облегчает посмотрим что происходит). Электронная таблица по адресу http://woodm.myweb.port.ac.uk/SL/resample.xlsx позволяет просматривать отдельные повторные выборки, составлять гистограммы из 1000 повторных выборок, экспериментировать с более крупными выборками и т. Д. В статье есть более подробное объяснение. на https://arxiv.org/abs/1803.06214 .

Майкл Вуд
источник
Это элементарно и, возможно, интуитивно понятно, но я не думаю, что это происходит из-за того, что загрузчик работает.
Майкл Черник