Вопросы с тегом «bootstrap»

Начальная загрузка - это метод повторной выборки для оценки распределения выборки статистики.

326
Объяснение мирянам, почему работает самозагрузка

Недавно я использовал начальную загрузку для оценки доверительных интервалов для проекта. Кто-то, кто мало знает о статистике, недавно попросил меня объяснить, почему работает самозагрузка, т. Е. Почему повторная выборка одной и той же выборки снова и снова дает хорошие результаты. Я понял, что...

107
Что такое правило .632+ в начальной загрузке?

Здесь @gung ссылается на правило .632+. Быстрый поиск в Google не дает простого для понимания ответа о том, что означает это правило и для какой цели оно используется. Кто-нибудь, пожалуйста, проясните правило...

104
Различия между перекрестной проверкой и начальной загрузкой для оценки ошибки предсказания

Мне бы хотелось, чтобы ваши мысли о различиях между перекрестной проверкой и начальной загрузкой оценили ошибку прогноза. Работает ли лучше для небольших наборов данных или больших наборов...

86
Какие примеры, когда «наивный бутстрап» терпит неудачу?

Предположим, у меня есть набор данных выборки из неизвестного или сложного распределения, и я хочу сделать некоторый вывод по статистике TTT данных. Моя склонность по умолчанию является просто генерировать кучу образцов бутстраповских с заменой, и вычислить мою статистику TTT на каждый образец...

78
Пример: регрессия LASSO с использованием glmnet для двоичного результата

Я начинаю баловаться с использованием glmnetс LASSO регрессией , где мой результат представляет интерес дихотомический. Я создал небольшой фрейм данных ниже: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91,...

75
Методы передискретизации / моделирования: Монте-Карло, начальная загрузка, джекнифинг, перекрестная проверка, рандомизированные тесты и тесты перестановки

Я пытаюсь понять разницу между различными методами передискретизации (симуляция Монте-Карло, параметрическая начальная загрузка, непараметрическая начальная загрузка, джекнифинг, перекрестная проверка, рандомизационные тесты и тесты перестановок) и их реализацией в моем собственном контексте с...

71
Может ли бутстрап рассматриваться как «лекарство» для небольшого размера выборки?

Этот вопрос был вызван тем, что я прочитал в этом учебнике по статистике для выпускников, а также (независимо) услышал во время этой презентации на статистическом семинаре. В обоих случаях утверждение было следующим: «поскольку размер выборки довольно мал, мы решили выполнить оценку с помощью...

62
Предположения относительно начальных оценок неопределенности

Я ценю полезность начальной загрузки при получении оценок неопределенности, но меня всегда беспокоит одна вещь: распределение, соответствующее этим оценкам, является распределением, определяемым выборкой. В целом, кажется плохой идеей полагать, что частоты наших выборок выглядят точно так же, как и...

49
Бутстрап против Джекниф

Как методы начальной загрузки, так и методы складного ножа могут быть использованы для оценки систематической ошибки и стандартной ошибки оценки, а механизмы обоих методов повторной выборки не сильно отличаются: выборка с заменой против пропуска одного наблюдения за раз. Тем не менее, складной нож...

46
Интерпретация логарифмически преобразованного предиктора и / или ответа

Мне интересно, имеет ли это значение при интерпретации того, являются ли логически преобразованными только зависимые, как зависимые, так и независимые, или только независимые переменные. Рассмотрим случай log(DV) = Intercept + B1*IV + Error Я могу интерпретировать IV как процентное увеличение, но...

43
Можно ли интерпретировать бутстрап с байесовской точки зрения?

Хорошо, это вопрос, который не дает мне спать по ночам. Может ли процедура начальной загрузки быть интерпретирована как аппроксимация некоторой байесовской процедуры (кроме байесовской начальной загрузки)? Мне действительно нравится байесовская «интерпретация» статистики, которую я нахожу приятной...

42
Почему в среднем каждый образец начальной загрузки содержит примерно две трети наблюдений?

Я перебежать утверждение , что каждый образец самозагрузки (или в мешках дерево) будет содержать в среднем примерно 2/32/32/3 наблюдений. Я понимаю , что шанс не был выбран в любом из nnn черпает из nnn образцов с замены (1−1/n)n(1−1/n)n(1- 1/n)^n , которая работает примерно 1/31/31/3 шанс не был...

40
Эмпирическое правило для количества образцов начальной загрузки

Интересно, знает ли кто-нибудь какие-либо общие практические правила относительно количества выборок начальной загрузки, которые следует использовать, основываясь на характеристиках данных (количество наблюдений и т. Д.) И / или включенных...

40
Как определить важные основные компоненты, используя метод начальной загрузки или метод Монте-Карло?

Я заинтересован в определении количества значимых паттернов, вытекающих из анализа основных компонентов (PCA) или анализа эмпирических ортогональных функций (EOF). Я особенно заинтересован в применении этого метода к климатическим данным. Поле данных представляет собой матрицу MxN, где М - это...

38
Что означает доверительный интервал, взятый из повторных выборок при загрузке?

Я просматривал многочисленные вопросы на этом сайте, касающиеся начальной загрузки и доверительных интервалов, но я все еще в замешательстве. Одна из причин моего замешательства, вероятно, заключается в том, что я недостаточно продвинут в своих знаниях статистики, чтобы понять многие ответы. Я на...

37
Бутстреп против проверки гипотезы о перестановке

Существует несколько популярных методов передискретизации, которые часто используются на практике, такие как начальная загрузка, тест перестановки, складной нож и т. Д. Об этих методах рассказывается множество статей и книг, например, Philip I Good (2010) Permutation, Parametric и Bootstrap Tests...

34
Можете ли вы тренировать алгоритмы машинного обучения, используя CV / Bootstrap?

Этот вопрос может быть слишком открытым, чтобы получить окончательный ответ, но, надеюсь, нет. Алгоритмы машинного обучения, такие как SVM, GBM, Random Forest и т. Д., Как правило, имеют некоторые свободные параметры, которые, помимо некоторых правил большого пальца, необходимо настраивать для...

33
Как случайные леса не чувствительны к выбросам?

Я читал в нескольких источниках, в том числе и в этом , что случайные леса не чувствительны к выбросам (например, как логистическая регрессия и другие методы ML). Тем не менее, две части интуиции говорят мне иначе: Всякий раз, когда построено дерево решений, все точки должны быть классифицированы....

33
Определение размера выборки, необходимого для метода начальной загрузки / Предлагаемый метод

Я знаю, что это довольно горячая тема, на которую никто не может дать простой ответ. Тем не менее мне интересно, если следующий подход не может быть полезным. Метод начальной загрузки полезен только в том случае, если ваша выборка более или менее (читай точно) соответствует тому же распределению,...

33
Как вы делаете самозагрузку с данными временных рядов?

Недавно я узнал об использовании методов начальной загрузки для расчета стандартных ошибок и доверительных интервалов для оценок. Я узнал, что если данные являются IID, вы можете обрабатывать данные выборки как совокупность и выполнять выборку с заменой, и это позволит вам получить несколько...