Вопросы с тегом «sampling»

13
Почему начальная загрузка полезна?

Если все, что вы делаете, это повторная выборка из эмпирического распределения, почему бы просто не изучить эмпирическое распределение? Например, вместо того, чтобы изучать изменчивость путем повторной выборки, почему бы просто не определить количественно изменчивость по эмпирическому...

12
Как быстро сэмплировать X, если exp (X) ~ Gamma?

У меня есть простая проблема выборки, где мой внутренний цикл выглядит так: v = sample_gamma(k, a) где sample_gammaобразцы из гамма-распределения, чтобы сформировать образец Дирихле. Это работает хорошо, но для некоторых значений k / a некоторые из последующих вычислений теряются. Я адаптировал его...

12
Как мы можем получить нормальное распределение как если диапазон значений нашей случайной величины ограничен?

Допустим, у нас есть случайная величина с диапазоном значений, ограниченных aaa и bbb , где aaa - минимальное значение, а бbb - максимальное значение. Мне сказали , что в n → ∞n→∞n \to \infty , где Nnn нашего размера выборки, распределение выборки по средствам выборки является нормальным...

12
Почему центральная предельная теорема работает с одним образцом?

Меня всегда учили, что CLT работает, когда вы повторяете выборку, причем каждая выборка достаточно велика. Например, представьте, что у меня есть страна с 1 000 000 граждан. Мое понимание CLT состоит в том, что даже если распределение их высот было ненормальным, если я взял 1000 выборок из 50...

12
Определение квантилей по взвешенной выборке

У меня есть взвешенная выборка, для которой я хочу рассчитать квантили. 1 В идеале, где веса равны (ли = 1 или иным образом ), то результаты будут согласуются с данными scipy.stats.scoreatpercentile()и R - х quantile(...,type=7). Одним из простых подходов было бы «умножить» выборку с использованием...

12
Как выполнить повторную выборку в R, не повторяя перестановок?

Если в R установить set.seed (), а затем использовать функцию примера для рандомизации списка, могу ли я гарантировать, что не сгенерирую такую ​​же перестановку? то есть ... set.seed(25) limit <- 3 myindex <- seq(0,limit) for (x in seq(1,factorial(limit))) { permutations <-...

12
Различия между PROC Mixed и lme / lmer в R - степени свободы

Примечание: этот вопрос является репостом, так как мой предыдущий вопрос пришлось удалить по юридическим причинам. Сравнивая PROC MIXED из SAS с функцией lmeиз nlmeпакета в R, я наткнулся на некоторые довольно запутанные различия. Более конкретно, степени свободы в разных тестах различаются между...

12
Определите, значительно ли улучшился распределенный процесс с тяжелыми хвостами

Я наблюдаю время обработки процесса до и после изменения, чтобы выяснить, улучшился ли процесс в результате изменения. Процесс улучшился, если время обработки сократилось. Распределение времени обработки жирнохвостое, поэтому сравнение по среднему показателю нецелесообразно. Вместо этого я хотел бы...

12
Почему вообще стоит рассматривать выборку без замены в практическом применении?

Выборка с заменой имеет два преимущества перед выборкой без замены: 1) Вам не нужно беспокоиться о конечной коррекции населения. 2) Существует вероятность, что элементы из совокупности отрисовываются несколько раз - тогда вы можете перезапустить измерения и сэкономить время. Конечно, из...

12
Выборка из предельного распределения с использованием условного распределения?

Я хочу сделать выборку из одномерной плотности но я знаю только соотношение:еИксеИксf_X еИкс( х ) = ∫еИкс| Y( х | у) fY( у) гY,еИкс(Икс)знак равно∫еИкс|Y(Икс|Y)еY(Y)dY,f_X(x) = \int f_{X\vert Y}(x\vert y)f_Y(y) dy. Я хочу избежать использования MCMC (непосредственно на интегральном представлении)...

12
Интуитивно понятные примеры важности выборки

Мой опыт - информатика. Я довольно новичок в методах выборки Монте-Карло, и, хотя я понимаю математику, мне трудно придумывать интуитивные примеры для выборки по важности. Точнее, кто-то может привести примеры: оригинальное распределение, из которого нельзя выбрать образец, но можно оценить...

12
Методы MCMC - сжигание образцов?

В методах MCMC я продолжаю читать о burn-inвремени или количестве образцов до "burn". Что это такое и зачем это нужно? Обновить: Как только MCMC стабилизируется, останется ли он стабильным? Как понятие burn-inвремени связано с понятием времени...

12
Почему несколько (если не все) тесты параметрических гипотез предполагают случайную выборку?

Тесты, такие как Z, t и некоторые другие, предполагают, что данные основаны на случайной выборке. Почему? Предположим, что я занимаюсь экспериментальными исследованиями, в которых мне важнее внутренняя достоверность, чем внешняя. Итак, если моя выборка может быть немного предвзятой, хорошо,...

12
Почему бы не всегда использовать загрузочные CI?

Мне было интересно, как загрузочные CI (и BCa в barticular) работают на нормально распределенных данных. Похоже, что было проделано много работы по изучению их производительности в различных типах дистрибутивов, но ничего не удалось найти в нормально распределенных данных. Поскольку кажется...

12
Как выполнить вменение значений в очень большом количестве точек данных?

У меня очень большой набор данных и около 5% случайных значений отсутствуют. Эти переменные связаны друг с другом. В следующем примере набор данных R - просто игрушечный пример с фиктивными коррелированными данными. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000,...

11
Могу ли я использовать «левый глаз» и «правый глаз» в моем образце в качестве двух разных предметов?

Мои данные таковы. У меня есть две группы пациентов. Пациенты в каждой группе имели разные виды хирургии глаза. 5 переменных были измерены на пациентах в каждой группе. Я хочу сравнить эти переменные между двумя группами, используя тест перестановки или MANOVA. Глаз, на котором была сделана...

11
Латинская Асимптотика Выборки Гиперкуба

Я пытаюсь построить доказательство для проблемы, над которой я работаю, и одно из допущений, которые я делаю, состоит в том, что множество точек, из которых я беру выборку, плотно по всему пространству. Практически я использую выборку из латинского гиперкуба, чтобы получить свои баллы во всем...

11
Выборка с заменой в R randomForest

Реализация randomForest не позволяет производить выборку сверх количества наблюдений, даже при выборке с заменой. Почему это? Работает отлично: rf <- randomForest(Species ~ ., iris, sampsize=c(1, 1, 1), replace=TRUE) rf <- randomForest(Species ~ ., iris, sampsize=3, replace=TRUE) Что я хочу...

11
Подходит ли начальная загрузка для этих непрерывных данных?

Я полный новичок :) Я делаю исследование с размером выборки 10 000 человек из примерно 745 000 человек. Каждый образец представляет «процентное сходство». Подавляющее большинство выборок составляет около 97% -98%, но некоторые составляют от 60% до 90%, то есть распределение сильно искажено. Около...