Вопросы с тегом «dataset»

Набор данных - это набор данных, часто в табличной или матричной форме. Этот тег НЕ предназначен для запросов данных («где я могу найти набор данных о ...») -> см. OpenData

168
Публично доступные наборы данных

Одной из распространенных проблем в науке о данных является сбор данных из различных источников в несколько очищенном (полуструктурированном) формате и объединение метрик из различных источников для проведения анализа более высокого уровня. Глядя на усилия других людей, особенно другие вопросы на...

48
Должен ли я пойти на «сбалансированный» набор данных или «представительный» набор данных?

Моя задача «машинного обучения» - отделить доброкачественный интернет-трафик от вредоносного. В сценарии реального мира большая часть (скажем, 90% или более) интернет-трафика является доброкачественной. Таким образом, я почувствовал, что должен выбрать аналогичную настройку данных для обучения...

29
Почему xgboost намного быстрее, чем sklearn GradientBoostingClassifier?

Я пытаюсь обучить модели повышения градиента более чем на 50 тыс. Примеров с 100 числовыми функциями. XGBClassifierобрабатывает 500 деревьев в течение 43 секунд на моей машине, в то время как GradientBoostingClassifierобрабатывает только 10 деревьев (!) за 1 минуту и ​​2 секунды :( Я не стал...

29
Краткое руководство по обучению сильно несбалансированных наборов данных

У меня проблема с классификацией примерно 1000 положительных и 10000 отрицательных образцов в тренировочном наборе. Так что этот набор данных довольно несбалансированный. Обычный случайный лес просто пытается пометить все тестовые образцы как мажоритарный класс. Некоторые хорошие ответы о...

26
Общедоступные наборы данных / API социальных сетей

В качестве дополнения к нашему большому списку общедоступных наборов данных , я хотел бы знать, существует ли какой-либо список общедоступных наборов данных социальных сетей / API для сканирования. Было бы очень хорошо, если бы наряду со ссылкой на набор данных / API были добавлены характеристики...

24
Всегда ли лучше использовать весь набор данных для обучения окончательной модели?

Обычная техника после обучения, проверки и тестирования предпочтительной модели машинного обучения заключается в использовании полного набора данных, включая подмножество тестирования, для обучения окончательной модели для ее развертывания , например, в продукте. Мой вопрос: всегда ли это лучше?...

23
Идеи проекта Data Science [закрыто]

Закрыто . Этот вопрос основан на мнении . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы ответить на него фактами и цитатами, отредактировав этот пост . Закрыто 5 лет назад . Я не знаю, является ли это правильным местом для того, чтобы задать этот...

19
Как создать синтетический набор данных, используя модель машинного обучения, изученную с использованием исходного набора данных?

Как правило, модель машинного обучения построена на наборах данных. Я хотел бы знать, существует ли какой-либо способ генерирования синтетического набора данных с использованием такой обученной модели машинного обучения, сохраняющей исходные характеристики набора данных? [оригинальные данные ->...

18
Набор данных для распознавания именованных объектов в неформальном тексте

В настоящее время я ищу маркированные наборы данных, чтобы обучить модель извлекать именованные объекты из неформального текста (что-то похожее на твиты). Поскольку в документах из моего набора данных часто не хватает заглавных букв и грамматики, я ищу данные вне домена, которые немного более...

18
есть ли инструмент для очистки данных для python / pandas, похожий на инструмент R tidyr?

Я работаю над проблемой Kaggle, где некоторые переменные представлены строками, а не столбцами (разрушение сети Telstra). В настоящее время я ищу эквивалент функции collect (), separa (() и spread (), который можно найти в инструменте R...

16
сделать морскую карту тепла больше

Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера...

15
Почему переменные данных обучения и испытаний определяются с использованием заглавной буквы (в Python)?

Я надеюсь, что этот вопрос является наиболее подходящим на этом сайте ... В Python обычно имя класса определяется с использованием заглавной буквы в качестве первого символа, например class Vehicle: ... Однако в области машинного обучения часто данные обучения и испытаний определяются как Xи Y- не...

14
Есть ли в ImageNet класс человека? Есть ли классы, связанные с людьми?

Если я смотрю на одном из многочисленных источников для классов Imagenet по Интернету я не могу найти ни одного класса , связанного с людьми (и нет, сенокосец не тот , кто собирает, но это то , что я знал , как папа Longlegs, своего рода паук :-). Как это возможно? Я бы, по крайней мере , ожидал...

13
Одна горячая альтернатива кодирования для больших категориальных значений?

У меня есть датафрейм с большими категориальными значениями более 1600 категорий, есть ли способ найти альтернативы, чтобы у меня не было более 1600 столбцов. Я нашел эту интересную ссылку ниже http://amunategui.github.io/feature-hashing/#sourcecode Но они конвертируются в класс / объект, который я...

13
Анализ результатов A / B-теста, которые обычно не распределяются, с использованием независимого t-теста

У меня есть набор результатов теста A / B (одна контрольная группа, одна группа объектов), которые не соответствуют нормальному распределению. На самом деле распределение больше напоминает распределение Ландау. Я считаю, что независимый критерий Стьюдента требует, чтобы образцы были, по крайней...

13
Наборы данных с пониманием лучших практик

Я магистрант CS в области интеллектуального анализа данных. Мой руководитель однажды сказал мне, что перед тем, как запустить какой-либо классификатор или сделать что-либо с набором данных, я должен полностью понять данные и убедиться, что данные чистые и правильные. Мои вопросы: Как лучше всего...

13
Должен ли я использовать несбалансированный класс в рамках выборки в моих наборах данных для проверки / тестирования?

Я новичок в машинном обучении и сталкиваюсь с ситуацией. Я работаю над проблемой ставок в реальном времени с набором данных IPinYou и пытаюсь сделать прогноз клика. Дело в том, что, как вы, возможно, знаете, набор данных очень несбалансирован: около 1300 отрицательных примеров (без кликов) на 1...

12
Загрузка большого набора данных в Интернете непосредственно в AWS S3

Кто-нибудь знает, возможно ли импортировать большой набор данных в Amazon S3 с URL? По сути, я хочу избежать загрузки огромного файла и последующей его загрузки на S3 через веб-портал. Я просто хочу указать URL-адрес загрузки для S3 и подождать, пока они загрузят его в свою файловую систему. Это...

12
Тарифы авиакомпаний - Какой анализ следует использовать для выявления конкурентного поведения при установлении цен и ценовых корреляций?

Я хочу исследовать поведение авиакомпаний в отношении ценообразования - особенно то, как авиакомпании реагируют на ценообразование конкурентов. Как я сказал бы, мои знания о более сложном анализе довольно ограничены, я использовал в основном все основные методы для сбора общего представления о...

12
почему мы должны справиться с дисбалансом данных?

Мне нужно знать, почему мы должны бороться с дисбалансом данных. Я знаю, как с этим справляться, и различными методами для решения проблемы, которая заключается в повышении или понижении или использовании Smote. Например, если у меня редкое заболевание 1% из 100, и, скажем, я решил иметь...