Недавно я использовал начальную загрузку для оценки доверительных интервалов для проекта. Кто-то, кто мало знает о статистике, недавно попросил меня объяснить, почему работает самозагрузка, т. Е. Почему повторная выборка одной и той же выборки снова и снова дает хорошие результаты. Я понял, что хотя я потратил много времени, чтобы понять, как его использовать, я не совсем понимаю, почему работает самозагрузка.
В частности: если мы проводим повторную выборку из нашей выборки, как получается, что мы узнаем что-то о населении, а не только о выборке? Там, кажется, есть скачок, который несколько нелогичен.
Я нашел здесь несколько ответов на этот вопрос, которые я наполовину понимаю. Особенно этот . Я «потребитель» статистики, а не статистик, и я работаю с людьми, которые знают о статистике гораздо меньше, чем я. Итак, может ли кто-нибудь объяснить, с минимумом ссылок на теоремы и т. Д., Основные аргументы в пользу начальной загрузки? То есть, если бы вы объяснили это своему соседу, что бы вы сказали?
источник
Ответы:
Между прочим, версия средней длины, которую я обычно даю, выглядит так:
Вы хотите задать вопрос населению, но не можете. Таким образом, вы берете образец и задаете вопрос об этом. Теперь, насколько вы уверены в том, что выборочный ответ близок к совокупному ответу, очевидно, зависит от структуры населения. Один из способов узнать об этом - снова и снова брать образцы из населения, задавать им вопрос и видеть, насколько изменчивыми были ответы на выборки. Поскольку это невозможно, вы можете либо сделать некоторые предположения о форме населения, либо использовать информацию из выборки, которую вам действительно нужно узнать об этом.
Представьте, что вы решили сделать предположение, например, что это Нормальный, или Бернулли, или какая-то другая удобная выдумка. Следуя предыдущей стратегии, вы можете снова узнать, насколько может отличаться ответ на ваш вопрос, когда вас спрашивают об образце, в зависимости от того, какую именно выборку вы получили, многократно генерируя образцы того же размера, что и у вас, и задавая их одинаково. вопрос. Это было бы просто, если бы вы выбрали удобные в вычислительном отношении допущения. (Действительно, особенно удобные предположения плюс нетривиальная математика могут позволить вам вообще обойти часть выборки, но мы намеренно проигнорируем это здесь.)
Это кажется хорошей идеей, если вы счастливы сделать предположения. Представь, что ты не такой. Альтернатива - взять имеющуюся у вас пробу и взамен ее. Вы можете сделать это, потому что ваша выборка также является популяцией, очень маленькой дискретной; это похоже на гистограмму ваших данных. Выборка «с заменой» - это просто удобный способ обработки выборки как популяции и выборки из нее таким образом, чтобы она отражала ее форму.
Это разумно , потому что выборка у вас не только лучшая, а единственная имеющаяся у вас информация о том, как на самом деле выглядит популяция, но и потому, что большинство выборок, если они выбраны случайным образом, будут выглядеть очень похоже на население они пришли. Следовательно, вероятно, что и вы тоже.
Для интуиции важно подумать о том, как вы могли бы узнать об изменчивости, агрегируя выборочную информацию, которая генерируется различными способами и с различными допущениями. Важно полностью об этом забыть, полностью игнорируя возможность математических решений в замкнутой форме.
источник
+1 к @ConjugatePrior, я просто хочу высказать одно замечание, которое подразумевается в его ответе. Вопрос спрашивает: «Если мы делаем повторную выборку из нашей выборки, то как получается, что мы узнаем что-то о населении, а не только о выборке?» Повторная выборка не проводится для оценки распределения населения - мы берем нашу выборку в качестве модели населения. Скорее, повторная выборка проводится для оценки распределения выборки рассматриваемой статистики выборки.
источник
Это, вероятно, более техническое объяснение, предназначенное для людей, которые понимают некоторые статистические данные и математику (по крайней мере, исчисление). Вот слайд из курса по начальной загрузке, который я преподавал некоторое время назад:
Конечно, нужны некоторые объяснения. - это процедура для получения статистики из существующих данных (или, если быть точным, с технической точки зрения, функционала от функции распределения до действительных чисел; например, среднее значение равно , где для функции распределения выборки , понимается как точечная масса в точке выборки). В популяции, обозначаемой , применение дает интересующий параметр . Теперь мы взяли образец (первая стрелка вверху) и имеем эмпирическую функцию распределения - к ней мы применяем чтобы получить оценкуT E[X]=∫xdF Fn() dF F() T θ Fn() T θ^n . Интересно, насколько это далеко от ? Какое распределение может иметь случайное количество вокруг ? Это вопросительный знак в левом нижнем углу диаграммы, и на этот вопрос пытается ответить начальная загрузка. Если перефразировать точку зрения Ганга, то это не вопрос о населении, а вопрос о конкретной статистике и ее распределении.θ θ^n θ
Если бы мы могли повторить нашу процедуру выборки, мы могли бы получить это распределение и узнать больше. Ну, это обычно за пределами наших возможностей. Однако если
мы можем надеяться, что процедура начальной загрузки будет работать. А именно, мы притворяемся, что наше распределение а не , и с этим мы можем развлекать все возможные выборки - и будет таких выборок, что практично только для . Позвольте мне повторить еще раз: загрузчик работает для создания выборочного распределения вокруг «истинного» параметра , и мы надеемся, что при двух вышеупомянутых условиях это распределение выборки будет информативным о распределении выборки из вокруг :Fn() F() nn n≤5 θ^∗n θ^n θ^n θ
Теперь, вместо того, чтобы идти одним путем вдоль стрелок и терять некоторую информацию / точность вдоль этих стрелок, мы можем вернуться и что-то сказать об изменчивости вокруг .θ^∗n θ^n
Вышеуказанные условия изложены в техническом изложении в книге Холла (1991) . Понимание исчисления, которое я сказал, может потребоваться для того, чтобы посмотреть на этот слайд, - это второе предположение о гладкости: в более формальном языке функционал должен обладать слабой производной. Первое условие, конечно, асимптотическое утверждение: чем больше ваша выборка, тем ближе должен быть к ; и расстояния от до должны быть того же порядка, что и от до . Эти условия могут нарушаться, и они нарушаютT Fn F θ^∗n θ^n θ^n θ в ряде практических ситуаций с достаточно странными статистическими данные и / или схемой выборки , которые не производят эмпирические распределения, которые достаточно близки к .F
Теперь, откуда взялись эти 1000 сэмплов, или какое-то магическое число? Это связано с нашей неспособностью отобрать все выборок, поэтому мы просто берем их случайное подмножество. Самая правая «симулирующая» стрелка указывает на другое приближение, которое мы делаем на нашем пути, чтобы получить распределение вокруг , и это означает, что наше моделирование методом Монте-Карло - достаточно хорошее приближение полного начального дистрибутива вокруг .thetas ; п & thetas ; & thetas ; ( * г ) п & thetas ; * п & thetas ; пnn θ^n θ θ^(∗r)n θ^∗n θ^n
источник
Я отвечаю на этот вопрос, потому что я согласен, что это трудно сделать, и есть много заблуждений. Эфрон и Диаконис попытались сделать это в своей статье в журнале Scientific American за 1983 год, и, на мой взгляд, им это не удалось. В настоящее время есть несколько книг, посвященных начальной загрузке, которые делают хорошую работу. Эфрон и Тибширани проделали большую работу в своей статье в «Статистической науке» в 1986 году. Я особенно старался сделать загрузчик доступным для практикующего в моей книге по методам начальной загрузки, и мое введение в процесс начальной загрузки с приложениями к книге Р. Холла - это здорово, но очень продвинуто и теоретически. , Тим Хестерберг написал большую дополнительную главу для одной из вводных книг по статистике Дэвида Мура. У покойного Клиффорда Ланнеборга была хорошая книга. Чихара и Хестерберг недавно выпустили книгу по математической статистике среднего уровня, которая описывает начальную загрузку и другие методы повторной выборки. Даже продвинутые книги, такие как Лахири или Шао и Ту, дают хорошие концептуальные объяснения. Мэнли хорошо справляется со своей книгой, в которой рассказывается о перестановках и начальной загрузке. Больше нет причин ломать голову над начальной загрузкой. Важно иметь в виду, что начальная загрузка зависит от принципа начальной загрузки. «Выборка с заменой ведет себя на исходной выборке так же, как исходная выборка ведет себя на совокупности. Существуют примеры, где этот принцип не работает. Важно знать, что загрузчик это не ответ на каждую статистическую проблему. дать хорошие концептуальные объяснения. Мэнли хорошо справляется со своей книгой, в которой рассказывается о перестановках и начальной загрузке. Больше нет причин ломать голову над начальной загрузкой. Важно иметь в виду, что начальная загрузка зависит от принципа начальной загрузки. «Выборка с заменой ведет себя на исходной выборке так же, как исходная выборка ведет себя на совокупности. Существуют примеры, где этот принцип не работает. Важно знать, что загрузчик это не ответ на каждую статистическую проблему. дать хорошие концептуальные объяснения. Мэнли хорошо справляется со своей книгой, в которой рассказывается о перестановках и начальной загрузке. Больше нет причин ломать голову над начальной загрузкой. Важно иметь в виду, что начальная загрузка зависит от принципа начальной загрузки. «Выборка с заменой ведет себя на исходной выборке так же, как исходная выборка ведет себя на совокупности. Существуют примеры, где этот принцип не работает. Важно знать, что загрузчик это не ответ на каждую статистическую проблему. Выборка с заменой ведет себя в исходной выборке так же, как исходная выборка ведет себя в популяции. Есть примеры, где этот принцип не работает. Важно знать, что бутстрап не является ответом на все статистические проблемы. Выборка с заменой ведет себя в исходной выборке так же, как исходная выборка ведет себя в популяции. Есть примеры, где этот принцип не работает. Важно знать, что бутстрап не является ответом на все статистические проблемы.
Вот амазонка ссылки на все книги, которые я упомянул и многое другое.
Математическая статистика с передискретизацией и R
Методы начальной загрузки и их применение
Методы начальной загрузки: руководство для практиков и исследователей
Введение в методы начальной загрузки с приложениями к R
Методы передискретизации для зависимых данных
Методы рандомизации, бутстрапа и Монте-Карло в биологии
Введение в Bootstrap
Руководство по бизнес-статистике Глава 18. Методы начальной загрузки и тесты перестановок
Анализ данных путем повторной выборки: концепции и приложения
Jackknife, Bootstrap и другие планы передискретизации
Джек нож и бутстрап
Перестановочные, параметрические и бутстреп-тесты гипотез
Бутстрап и расширение Эджворта
источник
Посредством начальной загрузки вы просто снова и снова берете выборки из одной и той же группы данных (данных выборки), чтобы оценить, насколько точны ваши оценки по всей совокупности (что действительно существует в реальном мире).
Если вы возьмете одну выборку и сделаете оценки реальной популяции, вы не сможете оценить, насколько точны ваши оценки - у нас есть только одна оценка, и мы не определили, как эта оценка варьируется в зависимости от разных выборок, с которыми мы могли столкнуться.
При начальной загрузке мы используем этот основной пример для генерации нескольких образцов. Например, если мы измеряем прибыль каждый день в течение 1000 дней, мы можем взять случайные выборки из этого набора. Мы можем получить прибыль за один случайный день, записать ее, получить прибыль за другой случайный день (который может оказаться в тот же день, что и раньше - выборка с заменой), записать его и т. Д., Пока мы не получим «новый» образец 1000 дней (из оригинального образца).
Этот «новый» образец не идентичен исходному образцу - на самом деле мы могли бы сгенерировать несколько «новых» образцов, как указано выше. Когда мы смотрим на различия в средствах и оценках, мы можем получить представление о том, насколько точными были исходные оценки.
Изменить - в ответ на комментарий
«Более новые» выборки не идентичны первой, и новые оценки, основанные на них, будут отличаться. Это моделирует повторные выборки населения. Различия в оценках «более новых» выборок, созданных при начальной загрузке, проливают свет на то, как будут варьироваться оценки выборок, учитывая разные выборки из совокупности. Это на самом деле, как мы можем попытаться измерить точность первоначальных оценок.
Конечно, вместо начальной загрузки вы можете взять несколько новых выборок из популяции, но это может оказаться невозможным.
источник
Я понимаю, что это старый вопрос с принятым ответом, но я хотел бы представить мой взгляд на метод начальной загрузки. Я ни в коем случае не эксперт (в большей степени пользователь статистики, как ОП) и приветствую любые исправления или комментарии.
Вместо этого вы можете рассмотреть все подмножества размера 98 и получить JK-2 (удалено 2 элемента) или JK-3 и т. Д.
Теперь, начальная загрузка - просто рандомизированная версия этого. Делая повторную выборку с помощью выбора с заменами, вы «удаляете» случайное количество элементов (возможно, ни одного) и «заменяете» их одной (или более) копиями.
При замене на копии повторный набор данных всегда будет иметь одинаковый размер. Для складного ножа вы можете спросить, каково влияние складывания ножом на образцы размером 99 вместо 100, но если размер выборки «достаточно большой», это, вероятно, не проблема.
В складном ноже вы никогда не смешиваете «delete-1» и «delete-2» и т. Д., Чтобы убедиться в том, что оцененные значения «jacked» взяты из выборок одного размера.
Вы также можете рассмотреть возможность разделения выборки размером 100, например, на 10 выборок размера 10. В некоторых теоретических аспектах это будет чище (независимые подмножества), но уменьшит размер выборки (со 100 до 10) настолько, что будет непрактичным (в большинстве случаев).
Вы также можете рассмотреть частично перекрывающиеся подмножества определенного размера. Все это обрабатывается автоматическим, равномерным и случайным образом методом начальной загрузки.
Кроме того, метод начальной загрузки дает вам оценку выборочного распределения вашей статистики по эмпирическому распределению исходной выборки, так что вы можете проанализировать дополнительные свойства статистики, помимо стандартной ошибки.
источник
Перефразируя Фокса , я хотел бы начать с того, что процесс повторной выборки из вашей наблюдаемой выборки, как было показано, имитирует процесс первоначальной выборки из всей популяции.
источник
Конечная выборка населения приближается к распределению так же, как гистограмма приближается к нему. Повторная выборка изменяет количество бинов, и вы получаете новое приближение. Значения большого количества колеблются меньше значений малого количества как в исходной популяции, так и в выборочном наборе. Поскольку вы объясняете это непрофессионалу, вы можете утверждать, что для большого количества бинов это примерно квадратный корень из числа бинов в обоих случаях.
Я думаю, что важно подчеркнуть, что при начальной загрузке не выявляются «новые» данные, это просто удобный, непараметрический способ приблизительного определения выборки колебаний, если истинная вероятность определяется выборкой.
источник
Обратите внимание, что в классической логической статистике теоретической сущностью, которая связывает выборку с совокупностью в качестве хорошей оценки совокупности, является распределение выборки (все возможные выборки, которые могут быть взяты из совокупности). Метод начальной загрузки создает своего рода распределение выборок (распределение, основанное на нескольких выборках). Конечно, это метод максимального правдоподобия, но основная логика ничем не отличается от традиционной теории вероятностей, стоящей за классической статистикой на основе нормального распределения.
источник
Моя точка зрения очень крошечная.
Bootstrap работает потому, что в вычислительном отношении интенсивно использует основную предпосылку нашей исследовательской программы.
Чтобы быть более конкретным, в области статистики или биологии, или большинства не теоретических наук, мы изучаем отдельных лиц, собирая таким образом образцы.
Тем не менее, из таких образцов мы хотим сделать выводы о других людях, представляя их нам в будущем или в других образцах.
С помощью начальной загрузки, явно основав наше моделирование на отдельных компонентах нашей выборки, мы можем лучше (обычно с меньшими предположениями) делать выводы и прогнозировать для других людей.
источник
Объясняя новичкам, я думаю, что это помогает взять конкретный пример ...
Представьте, что у вас есть случайная выборка из 9 измерений из некоторой популяции. Среднее значение по выборке равно 60. Можем ли мы быть уверены, что среднее по всей популяции также составляет 60? Очевидно, что не потому, что небольшие выборки будут отличаться, поэтому оценка 60, вероятно, будет неточной. Чтобы выяснить, как много сэмплов будет варьироваться, мы можем провести несколько экспериментов, используя метод, называемый начальной загрузкой.
Первое число в выборке - 74, а второе - 65, так что давайте представим большую «притворную» популяцию, состоящую из одной девятой 74-х, одной девятой 65-х и так далее. Самый простой способ взять случайную выборку из этой совокупности - это взять случайную цифру из выборки из девяти, затем заменить ее, чтобы снова иметь исходную выборку из девяти, и выбрать другую случайную выборку, и так далее, пока у вас не получится «повторная выборка» из 9. Когда я это сделал, 74 вообще не появлялись, но некоторые другие цифры появлялись дважды, а среднее значение составляло 54,4. (Это настроено в электронной таблице по адресу http://woodm.myweb.port.ac.uk/SL/resample.xlsx - нажмите на вкладку начальной загрузки в нижней части экрана.)
Когда я взял 1000 повторных выборок таким образом, их значения варьировались от 44 до 80, с 95% между 48 и 72. Это говорит о том, что есть ошибка до 16-20 единиц (44 на 16 ниже среднего значения для притворной популяции 60, 80 - это на 20 единиц выше) при использовании выборок размера 9 для оценки среднего населения. и что мы можем быть на 95% уверены, что ошибка будет 12 или меньше. Таким образом, мы можем быть на 95% уверены, что средняя численность населения будет где-то между 48 и 72.
Здесь есть ряд предположений, очевидным из которых является предположение, что выборка дает полезную картину населения - опыт показывает, что в целом это работает хорошо, если выборка достаточно большая (9 немного мала, но облегчает посмотрим что происходит). Электронная таблица по адресу http://woodm.myweb.port.ac.uk/SL/resample.xlsx позволяет просматривать отдельные повторные выборки, составлять гистограммы из 1000 повторных выборок, экспериментировать с более крупными выборками и т. Д. В статье есть более подробное объяснение. на https://arxiv.org/abs/1803.06214 .
источник