Запись в Википедии о начальной загрузке очень хороша:
http://en.wikipedia.org/wiki/Bootstrapping_%28statistics%29
Самая распространенная причина, по которой применяется начальная загрузка, заключается в том, что форма основного распределения, из которого берется выборка, неизвестна. Традиционно статистики предполагают нормальное распределение (по очень веским причинам, связанным с центральной предельной теоремой), но статистические данные (такие как стандартное отклонение, доверительные интервалы, расчеты мощности и т. Д.), Оцененные с помощью теории нормального распределения, являются только строго действительными, если базовое распределение населения нормальный.
Путем многократной повторной выборки самой выборки начальная загрузка позволяет получить оценки, которые не зависят от распределения. Традиционно каждая «повторная выборка» исходной выборки случайным образом выбирает то же количество наблюдений, что и в исходной выборке. Однако они выбраны с заменой. Если выборка имеет N наблюдений, каждая повторная выборка начальной загрузки будет иметь N наблюдений, при этом многие из исходной выборки будут повторены, а многие исключены.
Интересующий параметр (например, отношение шансов и т. Д.) Может быть затем оценен из каждой начальной загрузки. Повторение начальной загрузки, скажем, 1000 раз, позволяет оценить «медиану» и 95% доверительный интервал по статистике (например, отношение шансов), выбрав 2,5-й, 50-й и 97,5-й процентили.
Вики по начальной загрузке дает следующее описание:
Я предоставлю более подробную информацию, если вы сможете уточнить, какую часть вышеприведенного описания вы не понимаете.
источник
Мне нравится думать об этом следующим образом: если вы получаете набор данных случайной выборки из совокупности, то, вероятно, эта выборка будет иметь характеристики, которые примерно соответствуют характеристикам исходной совокупности. Таким образом, если вы заинтересованы в получении доверительных интервалов для определенной функции распределения, например ее асимметрии, вы можете рассматривать выборку как псевдопопуляцию, из которой можно получить множество наборов случайных псевдосэмплов, вычисляя Значение признака интереса в каждом. Предположение о том, что исходная выборка приблизительно соответствует совокупности, также означает, что вы можете получить псевдо-выборки путем выборки из псевдопопуляции «с заменой» (например, вы выбираете значение, записываете его, затем помещаете обратно; таким образом, каждое значение может наблюдаться несколько раз.).
источник
Bootstrap - это симуляция повторяющегося эксперимента; Допустим, у вас есть коробка с шариками, и вы хотите получить средний размер шарика - поэтому вы рисуете некоторые из них, измеряете и берете среднее. Теперь вы хотите повторить это, чтобы получить распределение, например, чтобы получить стандартное отклонение - но вы узнали, что кто-то украл коробку.
Что можно сделать сейчас, так это использовать то, что у вас есть - это одна серия измерений. Идея состоит в том, чтобы поместить шарики в новую коробку и смоделировать исходный эксперимент, нарисовав одинаковое количество шариков с заменой - чтобы иметь одинаковый размер выборки и некоторую изменчивость. Теперь это можно повторить много раз, чтобы получить ряд средств, которые в конечном итоге можно использовать для аппроксимации среднего распределения.
источник
источник