Вопросы с тегом «resampling»

Повторная выборка берет образец из образца. Распространенными видами применения являются джекнифинг (взятие подвыборки, например, все значения, кроме 1) и начальная загрузка (отбор проб с заменой). Эти методы могут обеспечить надежную оценку распределения выборки, когда будет трудно или невозможно получить аналитический вывод.

75
Методы передискретизации / моделирования: Монте-Карло, начальная загрузка, джекнифинг, перекрестная проверка, рандомизированные тесты и тесты перестановки

Я пытаюсь понять разницу между различными методами передискретизации (симуляция Монте-Карло, параметрическая начальная загрузка, непараметрическая начальная загрузка, джекнифинг, перекрестная проверка, рандомизационные тесты и тесты перестановок) и их реализацией в моем собственном контексте с...

34
Можете ли вы тренировать алгоритмы машинного обучения, используя CV / Bootstrap?

Этот вопрос может быть слишком открытым, чтобы получить окончательный ответ, но, надеюсь, нет. Алгоритмы машинного обучения, такие как SVM, GBM, Random Forest и т. Д., Как правило, имеют некоторые свободные параметры, которые, помимо некоторых правил большого пальца, необходимо настраивать для...

29
Насколько хорошо самозагрузка аппроксимирует выборочное распределение оценки?

Недавно изучив начальную загрузку, у меня возник концептуальный вопрос, который до сих пор меня удивляет: У вас есть население, и вы хотите знать атрибут населения, то есть , где я использую для представления населения. Это может означать, например, население. Обычно вы не можете получить все...

29
Зачем использовать стратифицированную перекрестную проверку? Почему это не наносит ущерба дисперсии?

Мне сказали, что полезно использовать стратифицированную перекрестную проверку, особенно когда классы ответов не сбалансированы. Если одна из целей перекрестной проверки состоит в том, чтобы помочь учесть случайность нашей исходной выборки обучающих данных, то, безусловно, создание одинакового...

22
Каковы предположения о тесте перестановки?

Часто утверждается, что тесты перестановок не имеют никаких предположений, однако это, безусловно, не так. Например, если мои образцы как-то коррелируют, я могу представить, что перестановка их меток не будет правильной вещью. Единственное, что я обнаружил в этой проблеме, - это предложение из...

20
Методы повторного отбора карета

Я использую библиотеку caretв R для тестирования различных процедур моделирования. trainControlОбъект позволяет указать метод повторной дискретизации. Эти методы описаны в документации разделе 2.3 , и включают в себя: boot, boot632, cv, LOOCV, LGOCV, repeatedcvи oob. Хотя некоторые из них легко...

18
Классификация тестирования данных с избыточным дискретизацией

Я работаю над сильно несбалансированными данными. В литературе для перебалансировки данных используется несколько методов с использованием повторной выборки (избыточной или недостаточной выборки). Два хороших подхода: SMOTE: Синтетическая техника пересчёта меньшинств ( SMOTE ) ADASYN: Адаптивный...

16
Тест на выборку IID

Как бы вы проверили или проверили, что выборка является IID (независимой и идентично распределенной)? Обратите внимание, что я не имею в виду гауссово и идентично распределенное, просто IID. И идея, которая приходит мне в голову, состоит в том, чтобы многократно разделить выборку на две подвыборки...

15
Какова процедура «начальной загрузки» (иначе говоря, «перекрестная проверка с повторной выборкой»)?

«Проверка правильности начальной загрузки» / «перекрестная проверка повторной выборки» является новой для меня, но обсуждалась путем ответа на этот вопрос . Я собираю, что это включает 2 типа данных: реальные данные и моделируемые данные, где данный набор моделируемых данных генерируется из...

14
Известен ли этот метод пересчета временных рядов в литературе? У него есть имя?

Недавно я искал способы повторной выборки временных рядов таким образом, чтобы Приблизительно сохраняйте автокорреляцию длительных процессов памяти. Сохраните область наблюдений (например, пересчитанный временной ряд целых чисел все еще является временным рядом целых чисел). Может влиять только на...

14
Лучшие учебники по повторной выборке Bootstrap?

Я просто хотел спросить, какие, по вашему мнению, лучшие из доступных книг по начальной загрузке. Я имею в виду не только то, что написано его разработчиками. Не могли бы вы указать, какой учебник, по вашему мнению, лучше всего подходит для начальной загрузки и отвечает следующим критериям?...

13
Требуется ли центрирование при начальной загрузке образца?

Читая о том, как приблизить распределение выборки, я наткнулся на непараметрический метод начальной загрузки. По- видимому, можно аппроксимировать распределение распределения ˉ Х * п - ˉ Х п , где ˉ Х * п обозначает образец среднего значения выборки начальной загрузки.Икс¯N-...

13
Почему начальная загрузка полезна?

Если все, что вы делаете, это повторная выборка из эмпирического распределения, почему бы просто не изучить эмпирическое распределение? Например, вместо того, чтобы изучать изменчивость путем повторной выборки, почему бы просто не определить количественно изменчивость по эмпирическому...

12
Почему бы не всегда использовать загрузочные CI?

Мне было интересно, как загрузочные CI (и BCa в barticular) работают на нормально распределенных данных. Похоже, что было проделано много работы по изучению их производительности в различных типах дистрибутивов, но ничего не удалось найти в нормально распределенных данных. Поскольку кажется...

12
Как выполнить вменение значений в очень большом количестве точек данных?

У меня очень большой набор данных и около 5% случайных значений отсутствуют. Эти переменные связаны друг с другом. В следующем примере набор данных R - просто игрушечный пример с фиктивными коррелированными данными. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000,...

12
Как выполнить повторную выборку в R, не повторяя перестановок?

Если в R установить set.seed (), а затем использовать функцию примера для рандомизации списка, могу ли я гарантировать, что не сгенерирую такую ​​же перестановку? то есть ... set.seed(25) limit <- 3 myindex <- seq(0,limit) for (x in seq(1,factorial(limit))) { permutations <-...

11
Методика начальной загрузки. Зачем пересчитывать «с заменой» вместо случайной подвыборки?

Метод начальной загрузки получил широкое распространение в последние годы, я также часто его использую, особенно потому, что обоснование довольно интуитивно понятно. Но это одна вещь, которую я не понимаю. Почему Efron решил выполнить повторную выборку с заменой, а не просто субсэмплирование путем...

11
Подходит ли начальная загрузка для этих непрерывных данных?

Я полный новичок :) Я делаю исследование с размером выборки 10 000 человек из примерно 745 000 человек. Каждый образец представляет «процентное сходство». Подавляющее большинство выборок составляет около 97% -98%, но некоторые составляют от 60% до 90%, то есть распределение сильно искажено. Около...

11
Коэффициент Джини и границы погрешности

У меня есть временной ряд данных с N = 14 счетчиками в каждый момент времени, и я хочу вычислить коэффициент Джини и стандартную ошибку для этой оценки в каждый момент времени. Поскольку у меня есть только N = 14 отсчетов в каждый момент времени, я продолжил вычисление дисперсии складного ножа, то...

10
Должен ли я загружаться на уровне кластера или на индивидуальном уровне?

У меня есть модель выживания с пациентами, размещенными в больницах, которая включает случайный эффект для больниц. Случайный эффект имеет гамма-распределение, и я пытаюсь сообщить о «значимости» этого термина в легко понятной шкале. Я нашел следующие ссылки, в которых используется Медианное...