Вопросы с тегом «dataset»

Запросы на наборы данных не по теме на этом сайте. Используйте этот тег для вопросов, касающихся создания, обработки или обслуживания наборов данных.

129
Являются ли большие наборы данных неподходящими для проверки гипотез?

В недавней статье в Amstat Новости , авторы (Марк ван дер Лан и Шерри Роуз) заявил , что «Мы знаем , что для достаточно больших размеров выборки, каждое исследование, в том числе те , в которых нулевая гипотеза об отсутствии эффекта верно - будет объявить статистически значимый эффект. Ну, я,...

98
Нахождение свободно доступных образцов данных

Я работал над новым методом анализа и анализа наборов данных, чтобы идентифицировать и изолировать подгруппы населения без предварительного знания характеристик какой-либо подгруппы. Хотя этот метод достаточно хорошо работает с искусственными выборками данных (то есть наборами данных, созданными...

93
Основные тесты проверки данных

В своей работе я часто работаю с наборами данных других людей, неспециалисты приносят мне клинические данные, и я помогаю им обобщать их и выполнять статистические тесты. Проблема, с которой я сталкиваюсь, состоит в том, что наборы данных, которые я привожу, почти всегда полны опечаток,...

56
Как смоделировать данные, которые удовлетворяют определенным ограничениям, таким как наличие определенного среднего значения и стандартного отклонения?

Этот вопрос мотивирован моим вопросом о метаанализе . Но я полагаю, что это также было бы полезно при обучении контекстов, в которых вы хотите создать набор данных, который точно отражает существующий опубликованный набор данных. Я знаю, как генерировать случайные данные из данного распределения....

53
API данных / каналы доступны как пакеты в R

РЕДАКТИРОВАТЬ: Представление задачи « Веб-технологии и службы CRAN» содержит гораздо более полный список источников данных и API-интерфейсов, доступных в R. Вы можете отправить запрос на извлечение на github, если вы хотите добавить пакет в представление задач. Я делаю список различных каналов...

46
Интерпретация логарифмически преобразованного предиктора и / или ответа

Мне интересно, имеет ли это значение при интерпретации того, являются ли логически преобразованными только зависимые, как зависимые, так и независимые, или только независимые переменные. Рассмотрим случай log(DV) = Intercept + B1*IV + Error Я могу интерпретировать IV как процентное увеличение, но...

43
Крошечные (реальные) наборы данных для примеров в классе?

Преподавая уроки начального уровня, учителя, которых я знаю, склонны придумывать цифры и рассказы, чтобы проиллюстрировать метод, которому они учат. Я бы предпочел рассказать реальную историю с реальными числами. Однако эти истории должны относиться к очень крошечному набору данных, который...

42
Как заставить людей лучше заботиться о данных?

На моем рабочем месте работают сотрудники из самых разных дисциплин, поэтому мы генерируем данные в самых разных формах. Следовательно, каждая команда разработала свою собственную систему хранения данных. Некоторые используют базы данных Access или SQL; некоторые команды (к моему ужасу) почти...

40
Как сделать правильные выводы из «больших данных»?

«Большие данные» повсюду в СМИ. Все говорят, что «большие данные» - это большая вещь для 2012 года, например, опрос KDNuggets на горячие темы 2012 года . Однако у меня есть глубокие опасения здесь. С большими данными, все , кажется , чтобы быть счастливым только , чтобы получить что - нибудь из. Но...

36
Как нормализовать данные между -1 и 1?

Я видел формулу нормализации min-max, но она нормализует значения между 0 и 1. Как бы я нормализовал мои данные между -1 и 1? В моей матрице данных есть как отрицательные, так и положительные...

35
Свободный набор данных для очень высокой размерной классификации [закрыто]

Что такое свободно доступный набор данных для классификации с более чем 1000 объектов (или точек выборки, если он содержит кривые)? Уже есть вики сообщества о бесплатных наборах данных: поиск свободно доступных образцов данных Но здесь было бы неплохо иметь более сфокусированный список, который...

34
Что если мои данные линейной регрессии содержат несколько смешанных линейных отношений?

Допустим, я изучаю, как нарциссы реагируют на различные почвенные условия. Я собрал данные о pH почвы в зависимости от зрелой высоты нарцисса. Я ожидаю линейных отношений, поэтому я продолжаю выполнять линейную регрессию. Однако, когда я начал свое исследование, я не осознавал, что популяция на...

32
Наборы данных, построенные с целью, аналогичной таковой в квартете Анскомба

Я только что натолкнулся на квартет Анскомба (четыре набора данных, которые имеют почти неразличимую описательную статистику, но выглядят совсем иначе при построении графика), и мне любопытно, есть ли другие более или менее известные наборы данных, которые были созданы, чтобы продемонстрировать...

31
Выполнение статистического теста после визуализации данных - выемка данных?

Я предложу этот вопрос на примере. Предположим, у меня есть набор данных, такой как набор данных по ценам на жилье в Бостоне, в котором у меня есть непрерывные и категориальные переменные. Здесь у нас есть переменная «качество», от 1 до 10, и цена продажи. Я могу разделить данные на дома «низкого»,...

30
Визуализация пересечений множества множеств

Есть ли модель визуализации, которая хороша для отображения пересечения многих множеств? Я думаю что-то вроде диаграмм Венна, но это может как-то подойти для большего числа наборов, таких как 10 или более. Википедия показывает некоторые диаграммы Венна с более высокими наборами, но даже диаграммы с...

29
Как работать с иерархическими / вложенными данными в машинном обучении

Я объясню мою проблему на примере. Предположим, вы хотите предсказать доход человека с учетом некоторых атрибутов: {Возраст, Пол, Страна, Регион, Город}. У вас есть тренировочный набор данных, как так train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4,...

28
Вычисление повторяемости эффектов по модели Лмера

Я только что наткнулся на эту статью , в которой описывается, как вычислить повторяемость (или надежность, или внутриклассовую корреляцию) измерения с помощью моделирования смешанных эффектов. Код R будет: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc =...

28
Какие аспекты набора данных «Iris» делают его таким успешным, как набор данных для примера / обучения / тестирования

Набор данных "Iris", вероятно, знаком большинству людей здесь - это один из канонических тестовых наборов данных и примерный набор данных для всего - от визуализации данных до машинного обучения. Например, все в этом вопросе в конечном итоге использовали его для обсуждения диаграмм рассеяния,...

27
Могут ли степени свободы быть нецелым числом?

Когда я использую GAM, он дает мне остаточный DF, (последняя строка в коде). Что это значит? Выходя за рамки примера GAM, в общем, может ли число степеней свободы быть нецелым числом?26,626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data =...