Плюсы и минусы начальной загрузки

11

Я только что узнал о концепции начальной загрузки, и возникла наивная проблема: если мы всегда можем генерировать многочисленные примеры начальной загрузки наших данных, зачем вообще пытаться получить больше «реальных» данных?

Я думаю, что у меня есть объяснение, пожалуйста, скажите мне, если я прав: я думаю, что процесс начальной загрузки уменьшает дисперсию, НО, если мой исходный набор данных является БИАЗИРОВАННЫМ, чем я застрял с низкой дисперсией и большим смещением, независимо от того, сколько реплик Я говорю.

Ноале
источник
4
Самозагрузка не создает больше информации, чем уже есть в данных (и модели) ... фактические данные могут дать вам больше информации
Glen_b -Reinstate Monica
2
Я согласен с Glen_b, что он не создает больше информации, но я не согласен, что он может дать вам меньше информации. Как я сказал в своем ответе, это не всегда работает хорошо, но это можно сказать о любом статистическом методе.
Майкл Р. Черник
1
Интересный вопрос - возможно, связанная концепция заключается в том, почему работает бутстрап? , Понимание этого поможет узнать, когда это полезно. Я думал о начальной загрузке как об улучшении по сравнению с нормальным приближением для распределений выборки. Он может справиться с отклонениями от нормы, которые не слишком экстремальны. Другая привлекательная особенность - вам не нужно выполнять аналитическую / алгебраическую работу - репликация делает это за вас.
вероятностная

Ответы:

15

Самозагрузка - это метод, позволяющий сделать вывод таким образом, чтобы не требовалась параметрическая форма распределения населения. Он не рассматривает исходную выборку так, как если бы это была популяция, даже если она включает выборку с заменой из исходной выборки. Предполагается, что выборка с заменой из исходной выборки размера n имитирует отбор выборки размера n из большей популяции. Он также имеет много вариантов, таких как бутстрап m из n, который повторно отбирает m времени из выборки размера n, где m <n. Хорошие свойства бутстрапа зависят от асимптотической теории. Как уже упоминали другие, бутстрап не содержит больше информации о населении, чем указано в исходной выборке. По этой причине иногда это не очень хорошо работает в небольших выборках.

Во второй книге «Методы начальной загрузки: руководство для практиков», опубликованной Wiley в 2007 году, я указываю на ситуации, в которых может произойти сбой начальной загрузки. Это включает в себя распределение, которое не имеет конечных моментов, небольшие размеры выборки, оценку экстремальных значений из распределения и оценку дисперсии в выборке обследования, где размер популяции составляет N, и берется большая выборка n. В некоторых случаях варианты начальной загрузки могут работать лучше, чем оригинальный подход. Это происходит с m из n начальной загрузкой в ​​некоторых приложениях. В случае оценки частоты ошибок в дискриминантном анализе, 632 начальной загрузки является улучшением по сравнению с другими методами, включая другие методы начальной загрузки.

Причиной его использования является то, что иногда вы не можете полагаться на параметрические предположения, а в некоторых ситуациях загрузчик работает лучше, чем другие непараметрические методы. Он может быть применен к широкому кругу проблем, включая нелинейную регрессию, классификацию, оценку доверительного интервала, оценку смещения, корректировку p-значений и анализ временных рядов и многие другие.

Майкл Р. Черник
источник
6

Образец начальной загрузки может только рассказать вам об исходном образце и не даст вам никакой новой информации о реальном населении. Это просто непараметрический метод построения доверительных интервалов и тому подобное.

Если вы хотите получить больше информации о населении, вам нужно собрать больше данных о населении.

Эйнар
источник