Вопросы с тегом «sample»

Выборка является подмножеством населения. Статистика в целом связана с использованием выборок, чтобы сделать вывод о параметрах, управляющих большей (возможно, бесконечной) популяцией.

98
Нахождение свободно доступных образцов данных

Я работал над новым методом анализа и анализа наборов данных, чтобы идентифицировать и изолировать подгруппы населения без предварительного знания характеристик какой-либо подгруппы. Хотя этот метод достаточно хорошо работает с искусственными выборками данных (то есть наборами данных, созданными...

96
Как выбрать t-критерий или непараметрический критерий, например, Уилкоксон в небольших выборках

Определенные гипотезы могут быть проверены с использованием t- критерия Стьюдента (возможно, с использованием поправки Уэлча для неравных отклонений в случае двух выборок) или с помощью непараметрического теста, такого как парный критерий Уилкоксона со знаком, ранговый критерий...

71
Может ли бутстрап рассматриваться как «лекарство» для небольшого размера выборки?

Этот вопрос был вызван тем, что я прочитал в этом учебнике по статистике для выпускников, а также (независимо) услышал во время этой презентации на статистическом семинаре. В обоих случаях утверждение было следующим: «поскольку размер выборки довольно мал, мы решили выполнить оценку с помощью...

60
Как я могу гарантировать, что данные тестирования не попадут в данные обучения?

Предположим, у нас есть кто-то, строящий прогностическую модель, но он не обязательно хорошо разбирается в надлежащих статистических или машинных принципах обучения. Может быть, мы помогаем этому человеку, когда он учится, или, возможно, этот человек использует какой-то пакет программного...

45
Что мы можем сказать о средней численности населения из выборки 1?

Мне интересно, что мы можем сказать, если вообще что-нибудь, о значении населения, когда у меня есть только одно измерение, (размер выборки 1). Очевидно, мы хотели бы иметь больше измерений, но мы не можем их получить.y 1μμ\muy1y1y_1 Мне кажется, что поскольку среднее значение выборки, , тривиально...

40
Предупреждение в R - приближение хи-квадрат может быть неправильным

У меня есть данные, показывающие результаты вступительного экзамена пожарного. Я проверяю гипотезу о том, что результаты экзамена и этническая принадлежность не являются взаимно независимыми. Чтобы проверить это, я выполнил тест хи-квадрат Пирсона в R. Результаты показывают, что я ожидал, но он дал...

35
Лучший метод для коротких временных рядов

У меня есть вопрос, связанный с моделированием коротких временных рядов. Вопрос не в том, моделировать их , а в том, как это сделать. Какой метод вы бы порекомендовали для моделирования (очень) коротких временных рядов (скажем, длины )? Под «лучшим» я подразумеваю здесь самый надежный, который...

29
R: Случайный лес, выбрасывающий NaN / Inf в ошибке «вызова сторонней функции», несмотря на отсутствие NaN в наборе данных [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 2 года назад . Я использую каретку, чтобы запустить перекрестный проверенный случайный лес по набору данных. Переменная...

29
Поддержал ли журнал Science анализ анализов в Саду Форка?

Идея адаптивного анализа данных заключается в том, что вы меняете свой план анализа данных, когда узнаете о них больше. В случае исследовательского анализа данных (EDA) это, как правило, хорошая идея (вы часто ищете непредвиденные закономерности в данных), но для подтверждающего исследования это...

28
Как выполнить t-тест Стьюдента, имеющий только размер выборки, среднее значение выборки и среднее значение по популяции?

тест студента требует стандартного отклонения образца . Однако как вычислить если известны только размер выборки и среднее значение выборки?TTtssssss Например, если размер выборки равен а среднее значение выборки равно , я попытаюсь создать список из идентичных выборок со значениями по каждая....

28
Вычисление повторяемости эффектов по модели Лмера

Я только что наткнулся на эту статью , в которой описывается, как вычислить повторяемость (или надежность, или внутриклассовую корреляцию) измерения с помощью моделирования смешанных эффектов. Код R будет: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc =...

28
Что если ваша случайная выборка явно не репрезентативна?

Что делать, если вы берете случайную выборку и видите, что она явно не репрезентативна, как в недавнем вопросе . Например, что, если предполагается, что распределение населения симметрично относительно 0, а выборка, которую вы выбираете случайным образом, имеет несбалансированные положительные и...

27
Могут ли степени свободы быть нецелым числом?

Когда я использую GAM, он дает мне остаточный DF, (последняя строка в коде). Что это значит? Выходя за рамки примера GAM, в общем, может ли число степеней свободы быть нецелым числом?26,626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data =...

25
Как справиться с поисковым анализом данных и дноуглубительными работами в исследованиях малых выборок?

Исследовательский анализ данных (EDA) часто приводит к исследованию других «следов», которые не обязательно принадлежат исходному набору гипотез. Я сталкиваюсь с такой ситуацией в случае исследований с ограниченным размером выборки и большим количеством данных, собранных с помощью различных...

23
Стабильность темы в моделях темы

Я работаю над проектом, в котором я хочу извлечь некоторую информацию о содержании серии открытых эссе. В этом конкретном проекте 148 человек написали эссе о гипотетической организации студентов в рамках более крупного эксперимента. Хотя в моей области (социальная психология) типичным способом...

22
Как выяснить, какой тип распределения представляет эти данные о времени отклика ping?

Я пробовал реальный процесс, время пинга в сети. «Время прохождения туда-обратно» измеряется в миллисекундах. Результаты представлены на гистограмме: Время пинга имеет минимальное значение, но длинный верхний хвост. Я хочу знать, что это за статистическое распределение, и как оценить его параметры....

21
Нужен ли нам набор тестов при использовании перекрестной проверки в k-кратном порядке?

Я читал о проверке K-Fold, и я хочу убедиться, что я понимаю, как это работает. Я знаю, что для метода удержания данные делятся на три набора, и набор тестов используется только в самом конце для оценки производительности модели, в то время как набор проверки используется для настройки...

21
Может ли небольшой размер выборки вызвать ошибку типа 1?

Я узнал, что небольшой размер выборки может привести к недостаточной мощности и ошибке 2 типа. Тем не менее, у меня есть ощущение, что небольшие образцы просто могут быть ненадежными и могут привести к любому результату случайно. Это...