Вопросы с тегом «sampling»

13

Если все, что вы делаете, это повторная выборка из эмпирического распределения, почему бы просто не изучить эмпирическое распределение? Например, вместо того, чтобы изучать изменчивость путем повторной выборки, почему бы просто не определить количественно изменчивость по эмпирическому...

12

Как быстро сэмплировать X, если exp (X) ~ Gamma?

У меня есть простая проблема выборки, где мой внутренний цикл выглядит так: v = sample_gamma(k, a) где sample_gammaобразцы из гамма-распределения, чтобы сформировать образец Дирихле. Это работает хорошо, но для некоторых значений k / a некоторые из последующих вычислений теряются. Я адаптировал его...

sampling gamma-distribution

12

Как мы можем получить нормальное распределение как если диапазон значений нашей случайной величины ограничен?

Допустим, у нас есть случайная величина с диапазоном значений, ограниченных aaa и bbb , где aaa - минимальное значение, а бbb - максимальное значение. Мне сказали , что в n → ∞n→∞n \to \infty , где Nnn нашего размера выборки, распределение выборки по средствам выборки является нормальным...

normal-distribution sampling random-variable central-limit-theorem

12

Почему центральная предельная теорема работает с одним образцом?

Меня всегда учили, что CLT работает, когда вы повторяете выборку, причем каждая выборка достаточно велика. Например, представьте, что у меня есть страна с 1 000 000 граждан. Мое понимание CLT состоит в том, что даже если распределение их высот было ненормальным, если я взял 1000 выборок из 50...

sampling central-limit-theorem

12

Определение квантилей по взвешенной выборке

У меня есть взвешенная выборка, для которой я хочу рассчитать квантили. 1 В идеале, где веса равны (ли = 1 или иным образом ), то результаты будут согласуются с данными scipy.stats.scoreatpercentile()и R - х quantile(...,type=7). Одним из простых подходов было бы «умножить» выборку с использованием...

algorithms quantiles weighted-sampling

12

Как выполнить повторную выборку в R, не повторяя перестановок?

Если в R установить set.seed (), а затем использовать функцию примера для рандомизации списка, могу ли я гарантировать, что не сгенерирую такую же перестановку? то есть ... set.seed(25) limit <- 3 myindex <- seq(0,limit) for (x in seq(1,factorial(limit))) { permutations <-...

r sampling combinatorics resampling

12

Различия между PROC Mixed и lme / lmer в R - степени свободы

Примечание: этот вопрос является репостом, так как мой предыдущий вопрос пришлось удалить по юридическим причинам. Сравнивая PROC MIXED из SAS с функцией lmeиз nlmeпакета в R, я наткнулся на некоторые довольно запутанные различия. Более конкретно, степени свободы в разных тестах различаются между...

r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

12

Определите, значительно ли улучшился распределенный процесс с тяжелыми хвостами

Я наблюдаю время обработки процесса до и после изменения, чтобы выяснить, улучшился ли процесс в результате изменения. Процесс улучшился, если время обработки сократилось. Распределение времени обработки жирнохвостое, поэтому сравнение по среднему показателю нецелесообразно. Вместо этого я хотел бы...

sampling nonparametric

12

Почему вообще стоит рассматривать выборку без замены в практическом применении?

Выборка с заменой имеет два преимущества перед выборкой без замены: 1) Вам не нужно беспокоиться о конечной коррекции населения. 2) Существует вероятность, что элементы из совокупности отрисовываются несколько раз - тогда вы можете перезапустить измерения и сэкономить время. Конечно, из...

sampling finite-population

12

Выборка из предельного распределения с использованием условного распределения?

Я хочу сделать выборку из одномерной плотности но я знаю только соотношение:еИксеИксf_X еИкс( х ) = ∫еИкс| Y( х | у) fY( у) гY,еИкс(Икс)знак равно∫еИкс|Y(Икс|Y)еY(Y)dY,f_X(x) = \int f_{X\vert Y}(x\vert y)f_Y(y) dy. Я хочу избежать использования MCMC (непосредственно на интегральном представлении)...

sampling conditional-probability monte-carlo marginal

12

Интуитивно понятные примеры важности выборки

Мой опыт - информатика. Я довольно новичок в методах выборки Монте-Карло, и, хотя я понимаю математику, мне трудно придумывать интуитивные примеры для выборки по важности. Точнее, кто-то может привести примеры: оригинальное распределение, из которого нельзя выбрать образец, но можно оценить...

probability distributions sampling importance-sampling

12

Методы MCMC - сжигание образцов?

В методах MCMC я продолжаю читать о burn-inвремени или количестве образцов до "burn". Что это такое и зачем это нужно? Обновить: Как только MCMC стабилизируется, останется ли он стабильным? Как понятие burn-inвремени связано с понятием времени...

sampling mcmc

12

Почему несколько (если не все) тесты параметрических гипотез предполагают случайную выборку?

Тесты, такие как Z, t и некоторые другие, предполагают, что данные основаны на случайной выборке. Почему? Предположим, что я занимаюсь экспериментальными исследованиями, в которых мне важнее внутренняя достоверность, чем внешняя. Итак, если моя выборка может быть немного предвзятой, хорошо,...

hypothesis-testing sampling parametric randomness

12

Почему бы не всегда использовать загрузочные CI?

Мне было интересно, как загрузочные CI (и BCa в barticular) работают на нормально распределенных данных. Похоже, что было проделано много работы по изучению их производительности в различных типах дистрибутивов, но ничего не удалось найти в нормально распределенных данных. Поскольку кажется...

confidence-interval bootstrap normality-assumption resampling

12

Как выполнить вменение значений в очень большом количестве точек данных?

У меня очень большой набор данных и около 5% случайных значений отсутствуют. Эти переменные связаны друг с другом. В следующем примере набор данных R - просто игрушечный пример с фиктивными коррелированными данными. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000,...

r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

11

Могу ли я использовать «левый глаз» и «правый глаз» в моем образце в качестве двух разных предметов?

Мои данные таковы. У меня есть две группы пациентов. Пациенты в каждой группе имели разные виды хирургии глаза. 5 переменных были измерены на пациентах в каждой группе. Я хочу сравнить эти переменные между двумя группами, используя тест перестановки или MANOVA. Глаз, на котором была сделана...

sampling

11

Латинская Асимптотика Выборки Гиперкуба

Я пытаюсь построить доказательство для проблемы, над которой я работаю, и одно из допущений, которые я делаю, состоит в том, что множество точек, из которых я беру выборку, плотно по всему пространству. Практически я использую выборку из латинского гиперкуба, чтобы получить свои баллы во всем...

sampling asymptotics latin-square latin-hypercube

11

Выборка с заменой в R randomForest

Реализация randomForest не позволяет производить выборку сверх количества наблюдений, даже при выборке с заменой. Почему это? Работает отлично: rf <- randomForest(Species ~ ., iris, sampsize=c(1, 1, 1), replace=TRUE) rf <- randomForest(Species ~ ., iris, sampsize=3, replace=TRUE) Что я хочу...

r sampling random-forest stratification oversampling

11

Почему желательно иметь низкую автокорреляцию в MCMC?

Я продолжаю читать о необходимости проверки автокорреляции в MCMC. Почему важно, чтобы автокорреляция была низкой? Что это измеряет в контексте

sampling autocorrelation mcmc

11

Подходит ли начальная загрузка для этих непрерывных данных?

Я полный новичок :) Я делаю исследование с размером выборки 10 000 человек из примерно 745 000 человек. Каждый образец представляет «процентное сходство». Подавляющее большинство выборок составляет около 97% -98%, но некоторые составляют от 60% до 90%, то есть распределение сильно искажено. Около...

bootstrap sample-size resampling