Я только что узнал о концепции начальной загрузки, и возникла наивная проблема: если мы всегда можем генерировать многочисленные примеры начальной загрузки наших данных, зачем вообще пытаться получить больше «реальных» данных?
Я думаю, что у меня есть объяснение, пожалуйста, скажите мне, если я прав: я думаю, что процесс начальной загрузки уменьшает дисперсию, НО, если мой исходный набор данных является БИАЗИРОВАННЫМ, чем я застрял с низкой дисперсией и большим смещением, независимо от того, сколько реплик Я говорю.
Ответы:
Самозагрузка - это метод, позволяющий сделать вывод таким образом, чтобы не требовалась параметрическая форма распределения населения. Он не рассматривает исходную выборку так, как если бы это была популяция, даже если она включает выборку с заменой из исходной выборки. Предполагается, что выборка с заменой из исходной выборки размера n имитирует отбор выборки размера n из большей популяции. Он также имеет много вариантов, таких как бутстрап m из n, который повторно отбирает m времени из выборки размера n, где m <n. Хорошие свойства бутстрапа зависят от асимптотической теории. Как уже упоминали другие, бутстрап не содержит больше информации о населении, чем указано в исходной выборке. По этой причине иногда это не очень хорошо работает в небольших выборках.
Во второй книге «Методы начальной загрузки: руководство для практиков», опубликованной Wiley в 2007 году, я указываю на ситуации, в которых может произойти сбой начальной загрузки. Это включает в себя распределение, которое не имеет конечных моментов, небольшие размеры выборки, оценку экстремальных значений из распределения и оценку дисперсии в выборке обследования, где размер популяции составляет N, и берется большая выборка n. В некоторых случаях варианты начальной загрузки могут работать лучше, чем оригинальный подход. Это происходит с m из n начальной загрузкой в некоторых приложениях. В случае оценки частоты ошибок в дискриминантном анализе, 632 начальной загрузки является улучшением по сравнению с другими методами, включая другие методы начальной загрузки.
Причиной его использования является то, что иногда вы не можете полагаться на параметрические предположения, а в некоторых ситуациях загрузчик работает лучше, чем другие непараметрические методы. Он может быть применен к широкому кругу проблем, включая нелинейную регрессию, классификацию, оценку доверительного интервала, оценку смещения, корректировку p-значений и анализ временных рядов и многие другие.
источник
Образец начальной загрузки может только рассказать вам об исходном образце и не даст вам никакой новой информации о реальном населении. Это просто непараметрический метод построения доверительных интервалов и тому подобное.
Если вы хотите получить больше информации о населении, вам нужно собрать больше данных о населении.
источник