Вопросы с тегом «sample»

21

Нужен ли нам набор тестов при использовании перекрестной проверки в k-кратном порядке?

Я читал о проверке K-Fold, и я хочу убедиться, что я понимаю, как это работает. Я знаю, что для метода удержания данные делятся на три набора, и набор тестов используется только в самом конце для оценки производительности модели, в то время как набор проверки используется для настройки...

cross-validation validation out-of-sample

20

Каковы правильные значения для точности и отзыва в крайних случаях?

Точность определяется как: p = true positives / (true positives + false positives) Является ли это исправить , что, как true positivesи false positivesподход 0, точность приближается к 1? Тот же вопрос для отзыва: r = true positives / (true positives + false negatives) В настоящее время я выполняю...

precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

18

Использование начальной загрузки под H0 для проведения теста на разницу двух средств: замена в группах или в объединенном образце

Предположим, у меня есть данные с двумя независимыми группами: g1.lengths <- c (112.64, 97.10, 84.18, 106.96, 98.42, 101.66) g2.lengths <- c (84.44, 82.10, 83.26, 81.02, 81.86, 86.80, 85.84, 97.08, 79.64, 83.32, 91.04, 85.92, 73.52, 85.58, 97.70, 89.72, 88.92, 103.72, 105.02, 99.48, 89.50,...

r hypothesis-testing bootstrap small-sample permutation-test

17

Могу ли я доверять значительному результату t-теста, если размер выборки небольшой?

Если мой результат одностороннего t-теста значителен, но размер выборки невелик (например, ниже 20 или около того), могу ли я доверять этому результату? Если нет, как я должен иметь дело и / или интерпретировать этот...

statistical-significance t-test interpretation sample-size small-sample

16

Минимальный размер выборки для непарного t-теста

Существует ли «правило» для определения минимального размера выборки, необходимого для правильности t-теста? Например, необходимо провести сравнение между двумя популяциями. Существует 7 точек данных из одной совокупности и только 2 точки данных из другой. К сожалению, эксперимент очень дорог и...

t-test sample-size small-sample wilcoxon-mann-whitney

16

Является ли личная таблица лидеров Kaggle хорошим предиктором непревзойденной производительности победившей модели?

Хотя результаты частного тестового набора не могут быть использованы для дальнейшего уточнения модели, не является ли выбор модели из огромного числа моделей, выполняемых на основе результатов частного тестового набора? Не могли бы вы, в результате одного этого процесса, в конечном итоге перейти на...

model-selection overfitting out-of-sample

15

В чем разница между выборочной дисперсией и выборочной дисперсией?

В чем разница между выборочной дисперсией и выборочной дисперсией? Они кажутся одинаковыми. Не так

sampling variance sample

15

Среднее (баллы) против балла (конкатенации) в перекрестной проверке

TLDR: Мой набор данных довольно маленький (120) выборок. При выполнении 10-кратной перекрестной проверки я должен: Соберите выходные данные из каждого тестового сгиба, объедините их в вектор, а затем вычислите ошибку на этом полном векторе прогнозов (120 выборок)? Или я должен вместо этого...

classification cross-validation small-sample

15

Точность градиентной машины уменьшается с увеличением числа итераций

Я экспериментирую с алгоритмом машины повышения градиента через caretпакет в R. Используя небольшой набор данных для поступления в колледж, я запустил следующий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create...

machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

15

2 Пример Колмогорова-Смирнова против Андерсона-Дарлинга против Крамера-фон-Мизеса

Мне было интересно, каковы критерии использования Колмогорова-Смирнова, Крамера-фон-Мизеса и Андерсона-Дарлинга при сравнении 2 ECDFS. Я знаю математику того, как они различаются, но если у меня есть некоторые данные ECDF, как я узнаю, какой тест подходит для...

kolmogorov-smirnov anderson-darling two-sample

14

Стоит ли моделировать короткие временные ряды?

Вот некоторый контекст. Я заинтересован в определении того, как две переменные среды (температура, уровни питательных веществ) влияют на среднее значение переменной отклика за 11-летний период. В течение каждого года есть данные из более чем 100 тысяч мест. Цель состоит в том, чтобы определить,...

time-series regression sample-size small-sample

14

Прогнозирующие модели: статистика не может превзойти машинное обучение? [закрыто]

Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 2 года назад . В настоящее время я слежу за магистерской...

machine-learning forecasting predictive-models prediction out-of-sample

14

Bootstrap: проблема переоснащения

Предположим, что кто-то выполняет так называемый непараметрический бутстрап, рисуя выборок размером n каждая из исходных n наблюдений с заменой. Я полагаю, что эта процедура эквивалентна оценке кумулятивной функции распределения по эмпирическому cdf:BBBnnnnnn...

bootstrap sample-size sample small-sample finite-population

13

В чем разница между случайной величиной и случайной выборкой?

Эти два выражения сильно смутили меня, когда я изучал статистику. Мне кажется, что это совершенно разные вещи. Случайная выборка является случайным образом взять пробу из популяции, в то время как случайная величина , как функция , которая отображает множество всех возможных результатов...

mathematical-statistics random-variable terminology sample

13

LARS против координатного спуска для лассо

Каковы плюсы и минусы использования LARS [1] по сравнению с использованием координатного спуска для подбора L1-регуляризованной линейной регрессии? Я в основном заинтересован в аспектах производительности (мои проблемы, как правило, Nисчисляются сотнями тысяч и p<20). Однако, любые другие идеи...

regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

13

Используя среднюю длину и средний вес для расчета среднего ИМТ?

Допустимо ли использовать среднюю длину ( ) и средний вес ( )) из данной популяции для расчета среднего индекса тела ( ) для этой популяции?hhhwwwBMI=wh2BMI=wh2BMI =

mean sample population

13

Последовательность Халтона против последовательности Соболя?

Из ответа на предыдущий вопрос я был направлен на последовательность Халтона для создания набора векторов, которые покрывали равномерное пространство выборки довольно равномерно. Но страница в Википедии упоминает, что более высокие простые числа часто очень сильно коррелируют в начале ряда. Это,...

sampling small-sample quasi-monte-carlo

13

Является ли какое-либо количественное свойство населения «параметром»?

Я относительно знаком с различием между терминами статистика и параметр. Я вижу статистику как значение, полученное от применения функции к образцу данных. Однако большинство примеров параметров относятся к определению параметрического распределения. Типичным примером является среднее значение и...

estimation terminology sample population

13

Большая выборка асимптотик / теория - зачем заботиться?

Я надеюсь, что этот вопрос не будет помечен как «слишком общий», и надеюсь, что начнется обсуждение, которое принесет пользу всем. В статистике мы тратим много времени на изучение больших выборочных теорий. Мы глубоко заинтересованы в оценке асимптотических свойств наших оценок, в том числе в...

sample asymptotics

13

Графические небольшие образцы

У меня есть небольшой набор данных 14 раз для выполнения задачи. Однако у меня возникают трудности с поиском подходящего графика для использования в графике данных. Если бы образец был больше, я бы использовал коробочную диаграмму или гистограмму, но я не уверен, что было бы целесообразно...

data-visualization descriptive-statistics small-sample