Вопросы с тегом «sample»

21
Нужен ли нам набор тестов при использовании перекрестной проверки в k-кратном порядке?

Я читал о проверке K-Fold, и я хочу убедиться, что я понимаю, как это работает. Я знаю, что для метода удержания данные делятся на три набора, и набор тестов используется только в самом конце для оценки производительности модели, в то время как набор проверки используется для настройки...

20
Каковы правильные значения для точности и отзыва в крайних случаях?

Точность определяется как: p = true positives / (true positives + false positives) Является ли это исправить , что, как true positivesи false positivesподход 0, точность приближается к 1? Тот же вопрос для отзыва: r = true positives / (true positives + false negatives) В настоящее время я выполняю...

18
Использование начальной загрузки под H0 для проведения теста на разницу двух средств: замена в группах или в объединенном образце

Предположим, у меня есть данные с двумя независимыми группами: g1.lengths <- c (112.64, 97.10, 84.18, 106.96, 98.42, 101.66) g2.lengths <- c (84.44, 82.10, 83.26, 81.02, 81.86, 86.80, 85.84, 97.08, 79.64, 83.32, 91.04, 85.92, 73.52, 85.58, 97.70, 89.72, 88.92, 103.72, 105.02, 99.48, 89.50,...

17
Могу ли я доверять значительному результату t-теста, если размер выборки небольшой?

Если мой результат одностороннего t-теста значителен, но размер выборки невелик (например, ниже 20 или около того), могу ли я доверять этому результату? Если нет, как я должен иметь дело и / или интерпретировать этот...

16
Минимальный размер выборки для непарного t-теста

Существует ли «правило» для определения минимального размера выборки, необходимого для правильности t-теста? Например, необходимо провести сравнение между двумя популяциями. Существует 7 точек данных из одной совокупности и только 2 точки данных из другой. К сожалению, эксперимент очень дорог и...

16
Является ли личная таблица лидеров Kaggle хорошим предиктором непревзойденной производительности победившей модели?

Хотя результаты частного тестового набора не могут быть использованы для дальнейшего уточнения модели, не является ли выбор модели из огромного числа моделей, выполняемых на основе результатов частного тестового набора? Не могли бы вы, в результате одного этого процесса, в конечном итоге перейти на...

15
Среднее (баллы) против балла (конкатенации) в перекрестной проверке

TLDR: Мой набор данных довольно маленький (120) выборок. При выполнении 10-кратной перекрестной проверки я должен: Соберите выходные данные из каждого тестового сгиба, объедините их в вектор, а затем вычислите ошибку на этом полном векторе прогнозов (120 выборок)? Или я должен вместо этого...

15
Точность градиентной машины уменьшается с увеличением числа итераций

Я экспериментирую с алгоритмом машины повышения градиента через caretпакет в R. Используя небольшой набор данных для поступления в колледж, я запустил следующий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create...

15
2 Пример Колмогорова-Смирнова против Андерсона-Дарлинга против Крамера-фон-Мизеса

Мне было интересно, каковы критерии использования Колмогорова-Смирнова, Крамера-фон-Мизеса и Андерсона-Дарлинга при сравнении 2 ECDFS. Я знаю математику того, как они различаются, но если у меня есть некоторые данные ECDF, как я узнаю, какой тест подходит для...

14
Стоит ли моделировать короткие временные ряды?

Вот некоторый контекст. Я заинтересован в определении того, как две переменные среды (температура, уровни питательных веществ) влияют на среднее значение переменной отклика за 11-летний период. В течение каждого года есть данные из более чем 100 тысяч мест. Цель состоит в том, чтобы определить,...

14
Прогнозирующие модели: статистика не может превзойти машинное обучение? [закрыто]

Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 2 года назад . В настоящее время я слежу за магистерской...

14
Bootstrap: проблема переоснащения

Предположим, что кто-то выполняет так называемый непараметрический бутстрап, рисуя выборок размером n каждая из исходных n наблюдений с заменой. Я полагаю, что эта процедура эквивалентна оценке кумулятивной функции распределения по эмпирическому cdf:BBBnnnnnn...

13
В чем разница между случайной величиной и случайной выборкой?

Эти два выражения сильно смутили меня, когда я изучал статистику. Мне кажется, что это совершенно разные вещи. Случайная выборка является случайным образом взять пробу из популяции, в то время как случайная величина , как функция , которая отображает множество всех возможных результатов...

13
LARS против координатного спуска для лассо

Каковы плюсы и минусы использования LARS [1] по сравнению с использованием координатного спуска для подбора L1-регуляризованной линейной регрессии? Я в основном заинтересован в аспектах производительности (мои проблемы, как правило, Nисчисляются сотнями тысяч и p<20). Однако, любые другие идеи...

13
Последовательность Халтона против последовательности Соболя?

Из ответа на предыдущий вопрос я был направлен на последовательность Халтона для создания набора векторов, которые покрывали равномерное пространство выборки довольно равномерно. Но страница в Википедии упоминает, что более высокие простые числа часто очень сильно коррелируют в начале ряда. Это,...

13
Является ли какое-либо количественное свойство населения «параметром»?

Я относительно знаком с различием между терминами статистика и параметр. Я вижу статистику как значение, полученное от применения функции к образцу данных. Однако большинство примеров параметров относятся к определению параметрического распределения. Типичным примером является среднее значение и...

13
Большая выборка асимптотик / теория - зачем заботиться?

Я надеюсь, что этот вопрос не будет помечен как «слишком общий», и надеюсь, что начнется обсуждение, которое принесет пользу всем. В статистике мы тратим много времени на изучение больших выборочных теорий. Мы глубоко заинтересованы в оценке асимптотических свойств наших оценок, в том числе в...

13
Графические небольшие образцы

У меня есть небольшой набор данных 14 раз для выполнения задачи. Однако у меня возникают трудности с поиском подходящего графика для использования в графике данных. Если бы образец был больше, я бы использовал коробочную диаграмму или гистограмму, но я не уверен, что было бы целесообразно...