Вопросы с тегом «small-sample»

Относится к статистическим осложнениям или проблемам из-за недостатка данных. Если ваш вопрос касается небольшой выборки относительно количества переменных, используйте вместо этого тег [недоопределенный].

96
Как выбрать t-критерий или непараметрический критерий, например, Уилкоксон в небольших выборках

Определенные гипотезы могут быть проверены с использованием t- критерия Стьюдента (возможно, с использованием поправки Уэлча для неравных отклонений в случае двух выборок) или с помощью непараметрического теста, такого как парный критерий Уилкоксона со знаком, ранговый критерий...

71
Может ли бутстрап рассматриваться как «лекарство» для небольшого размера выборки?

Этот вопрос был вызван тем, что я прочитал в этом учебнике по статистике для выпускников, а также (независимо) услышал во время этой презентации на статистическом семинаре. В обоих случаях утверждение было следующим: «поскольку размер выборки довольно мал, мы решили выполнить оценку с помощью...

45
Что мы можем сказать о средней численности населения из выборки 1?

Мне интересно, что мы можем сказать, если вообще что-нибудь, о значении населения, когда у меня есть только одно измерение, (размер выборки 1). Очевидно, мы хотели бы иметь больше измерений, но мы не можем их получить.y 1μμ\muy1y1y_1 Мне кажется, что поскольку среднее значение выборки, , тривиально...

40
Предупреждение в R - приближение хи-квадрат может быть неправильным

У меня есть данные, показывающие результаты вступительного экзамена пожарного. Я проверяю гипотезу о том, что результаты экзамена и этническая принадлежность не являются взаимно независимыми. Чтобы проверить это, я выполнил тест хи-квадрат Пирсона в R. Результаты показывают, что я ожидал, но он дал...

35
Лучший метод для коротких временных рядов

У меня есть вопрос, связанный с моделированием коротких временных рядов. Вопрос не в том, моделировать их , а в том, как это сделать. Какой метод вы бы порекомендовали для моделирования (очень) коротких временных рядов (скажем, длины )? Под «лучшим» я подразумеваю здесь самый надежный, который...

28
Как выполнить t-тест Стьюдента, имеющий только размер выборки, среднее значение выборки и среднее значение по популяции?

тест студента требует стандартного отклонения образца . Однако как вычислить если известны только размер выборки и среднее значение выборки?TTtssssss Например, если размер выборки равен а среднее значение выборки равно , я попытаюсь создать список из идентичных выборок со значениями по каждая....

25
Как справиться с поисковым анализом данных и дноуглубительными работами в исследованиях малых выборок?

Исследовательский анализ данных (EDA) часто приводит к исследованию других «следов», которые не обязательно принадлежат исходному набору гипотез. Я сталкиваюсь с такой ситуацией в случае исследований с ограниченным размером выборки и большим количеством данных, собранных с помощью различных...

23
Стабильность темы в моделях темы

Я работаю над проектом, в котором я хочу извлечь некоторую информацию о содержании серии открытых эссе. В этом конкретном проекте 148 человек написали эссе о гипотетической организации студентов в рамках более крупного эксперимента. Хотя в моей области (социальная психология) типичным способом...

21
Может ли небольшой размер выборки вызвать ошибку типа 1?

Я узнал, что небольшой размер выборки может привести к недостаточной мощности и ошибке 2 типа. Тем не менее, у меня есть ощущение, что небольшие образцы просто могут быть ненадежными и могут привести к любому результату случайно. Это...

20
Каковы правильные значения для точности и отзыва в крайних случаях?

Точность определяется как: p = true positives / (true positives + false positives) Является ли это исправить , что, как true positivesи false positivesподход 0, точность приближается к 1? Тот же вопрос для отзыва: r = true positives / (true positives + false negatives) В настоящее время я выполняю...

18
Использование начальной загрузки под H0 для проведения теста на разницу двух средств: замена в группах или в объединенном образце

Предположим, у меня есть данные с двумя независимыми группами: g1.lengths <- c (112.64, 97.10, 84.18, 106.96, 98.42, 101.66) g2.lengths <- c (84.44, 82.10, 83.26, 81.02, 81.86, 86.80, 85.84, 97.08, 79.64, 83.32, 91.04, 85.92, 73.52, 85.58, 97.70, 89.72, 88.92, 103.72, 105.02, 99.48, 89.50,...

17
Могу ли я доверять значительному результату t-теста, если размер выборки небольшой?

Если мой результат одностороннего t-теста значителен, но размер выборки невелик (например, ниже 20 или около того), могу ли я доверять этому результату? Если нет, как я должен иметь дело и / или интерпретировать этот...

16
Минимальный размер выборки для непарного t-теста

Существует ли «правило» для определения минимального размера выборки, необходимого для правильности t-теста? Например, необходимо провести сравнение между двумя популяциями. Существует 7 точек данных из одной совокупности и только 2 точки данных из другой. К сожалению, эксперимент очень дорог и...

15
Среднее (баллы) против балла (конкатенации) в перекрестной проверке

TLDR: Мой набор данных довольно маленький (120) выборок. При выполнении 10-кратной перекрестной проверки я должен: Соберите выходные данные из каждого тестового сгиба, объедините их в вектор, а затем вычислите ошибку на этом полном векторе прогнозов (120 выборок)? Или я должен вместо этого...

14
Bootstrap: проблема переоснащения

Предположим, что кто-то выполняет так называемый непараметрический бутстрап, рисуя выборок размером n каждая из исходных n наблюдений с заменой. Я полагаю, что эта процедура эквивалентна оценке кумулятивной функции распределения по эмпирическому cdf:BBBnnnnnn...

14
Стоит ли моделировать короткие временные ряды?

Вот некоторый контекст. Я заинтересован в определении того, как две переменные среды (температура, уровни питательных веществ) влияют на среднее значение переменной отклика за 11-летний период. В течение каждого года есть данные из более чем 100 тысяч мест. Цель состоит в том, чтобы определить,...

13
Графические небольшие образцы

У меня есть небольшой набор данных 14 раз для выполнения задачи. Однако у меня возникают трудности с поиском подходящего графика для использования в графике данных. Если бы образец был больше, я бы использовал коробочную диаграмму или гистограмму, но я не уверен, что было бы целесообразно...

13
Подходит ли Random Forest для очень маленьких наборов данных?

У меня есть набор данных, состоящий из 24 строк ежемесячных данных. Особенности ВВП, прибытие в аэропорт, месяц и некоторые другие. Зависимой переменной является количество посетителей популярного туристического направления. Подойдет ли Random Forest для такой проблемы? Данные не являются...

13
Последовательность Халтона против последовательности Соболя?

Из ответа на предыдущий вопрос я был направлен на последовательность Халтона для создания набора векторов, которые покрывали равномерное пространство выборки довольно равномерно. Но страница в Википедии упоминает, что более высокие простые числа часто очень сильно коррелируют в начале ряда. Это,...