Куда идет загрузка? Кто-нибудь может дать простое объяснение, чтобы начать меня?

9

Несмотря на несколько попыток прочесть о начальной загрузке, я, кажется, всегда сталкиваюсь с кирпичной стеной. Интересно, кто-нибудь может дать достаточно нетехническое определение начальной загрузки?

Я знаю, что на этом форуме невозможно предоставить достаточно подробностей, чтобы я мог полностью это понять, но нежный толчок в правильном направлении с главной целью и механизмом начальной загрузки был бы очень важен! Спасибо.

pmgjones
источник

Ответы:

8

Запись в Википедии о начальной загрузке очень хороша:

http://en.wikipedia.org/wiki/Bootstrapping_%28statistics%29

Самая распространенная причина, по которой применяется начальная загрузка, заключается в том, что форма основного распределения, из которого берется выборка, неизвестна. Традиционно статистики предполагают нормальное распределение (по очень веским причинам, связанным с центральной предельной теоремой), но статистические данные (такие как стандартное отклонение, доверительные интервалы, расчеты мощности и т. Д.), Оцененные с помощью теории нормального распределения, являются только строго действительными, если базовое распределение населения нормальный.

Путем многократной повторной выборки самой выборки начальная загрузка позволяет получить оценки, которые не зависят от распределения. Традиционно каждая «повторная выборка» исходной выборки случайным образом выбирает то же количество наблюдений, что и в исходной выборке. Однако они выбраны с заменой. Если выборка имеет N наблюдений, каждая повторная выборка начальной загрузки будет иметь N наблюдений, при этом многие из исходной выборки будут повторены, а многие исключены.

Интересующий параметр (например, отношение шансов и т. Д.) Может быть затем оценен из каждой начальной загрузки. Повторение начальной загрузки, скажем, 1000 раз, позволяет оценить «медиану» и 95% доверительный интервал по статистике (например, отношение шансов), выбрав 2,5-й, 50-й и 97,5-й процентили.

Thylacoleo
источник
8

Американский ученый недавно опубликовал приятную статью Космы Шализи о начальной загрузке, которая довольно легко читается и дает вам основы для понимания концепции.

АРС
источник
7

Очень широко: интуиция, а также происхождение названия («подтягивание к себе с помощью бутстрапов») основаны на наблюдении, что при использовании свойств выборки для выведения выводов о населении («обратная» проблема статистического вывод), мы ожидаем, чтобы ошибаться. Чтобы выяснить природу этой ошибки, рассмотрите сам образец как отдельную совокупность и изучите, как работает ваша логическая процедура, когда вы берете из нее образцы . Это «прямая» проблема: вы знаете все о своем ква-популяция и не нужно ничего об этом догадываться. Ваше исследование предложит (а) степень, в которой ваша логическая процедура может быть предвзятой, и (б) размер и характер статистической ошибки вашей процедуры. Таким образом, используйте эту информацию для корректировки ваших первоначальных оценок. Во многих (но определенно не во всех) ситуациях скорректированное смещение асимптотически намного ниже.

Одно из представлений, представленных этим схематическим описанием, заключается в том, что при начальной загрузке не требуется моделирования или повторной подвыборки: случается, что это просто сводный вычислительный способ изучения любого вида статистической процедуры, когда популяция известна. Существует множество загрузочных оценок, которые можно вычислить математически.

Этот ответ во многом обязан книге Питера Холла «Бутстрап и расширение Эджворта» (Springer 1992), особенно его описанию «Основного принципа» бутстрапа.

Whuber
источник
Мне нравится этот «оригинальный» подход (по сравнению с другими записями). Тем не менее, мне всегда трудно объяснить, почему бутстрап работает на практике ...
chl
4

Вики по начальной загрузке дает следующее описание:

Начальная загрузка позволяет собрать много альтернативных версий единой статистики, которая обычно рассчитывается из одной выборки. Например, предположим, что мы заинтересованы в росте людей во всем мире. Поскольку мы не можем измерить все население, мы выбираем только небольшую его часть. Из этой выборки можно получить только одно значение статистики, то есть одно среднее значение или одно стандартное отклонение и т. Д., И, следовательно, мы не видим, насколько эта статистика меняется. При использовании начальной загрузки мы случайным образом извлекаем новую выборку из n высот из N выборочных данных, где каждый человек может быть выбран максимально t раз. Делая это несколько раз, мы создаем большое количество наборов данных, которые мы могли видеть, и вычисляем статистику для каждого из этих наборов данных. Таким образом, мы получаем оценку распределения статистики.

Я предоставлю более подробную информацию, если вы сможете уточнить, какую часть вышеприведенного описания вы не понимаете.


источник
4

Мне нравится думать об этом следующим образом: если вы получаете набор данных случайной выборки из совокупности, то, вероятно, эта выборка будет иметь характеристики, которые примерно соответствуют характеристикам исходной совокупности. Таким образом, если вы заинтересованы в получении доверительных интервалов для определенной функции распределения, например ее асимметрии, вы можете рассматривать выборку как псевдопопуляцию, из которой можно получить множество наборов случайных псевдосэмплов, вычисляя Значение признака интереса в каждом. Предположение о том, что исходная выборка приблизительно соответствует совокупности, также означает, что вы можете получить псевдо-выборки путем выборки из псевдопопуляции «с заменой» (например, вы выбираете значение, записываете его, затем помещаете обратно; таким образом, каждое значение может наблюдаться несколько раз.).

Майк Лоуренс
источник
3

Bootstrap - это симуляция повторяющегося эксперимента; Допустим, у вас есть коробка с шариками, и вы хотите получить средний размер шарика - поэтому вы рисуете некоторые из них, измеряете и берете среднее. Теперь вы хотите повторить это, чтобы получить распределение, например, чтобы получить стандартное отклонение - но вы узнали, что кто-то украл коробку.
Что можно сделать сейчас, так это использовать то, что у вас есть - это одна серия измерений. Идея состоит в том, чтобы поместить шарики в новую коробку и смоделировать исходный эксперимент, нарисовав одинаковое количество шариков с заменой - чтобы иметь одинаковый размер выборки и некоторую изменчивость. Теперь это можно повторить много раз, чтобы получить ряд средств, которые в конечном итоге можно использовать для аппроксимации среднего распределения.


источник
3

В этом суть начальной загрузки: взятие разных выборок ваших данных, получение статистики для каждой выборки (например, среднее значение, медиана, корреляция, коэффициент регрессии и т. Д.) И использование изменчивости статистики по выборкам для указания чего-либо о стандартная ошибка и доверительные интервалы для статистики. - Начальная загрузка и загрузочный пакет в R

Джером англим
источник