Вопросы с тегом «dataset»

23
Как рецензент, могу ли я оправдать запрос данных и кода доступными, даже если журнал этого не делает?

Поскольку наука должна быть воспроизводимой, по определению растет признание того, что данные и код являются важным компонентом воспроизводимости, как обсуждалось на круглом столе в Йельском университете для совместного использования данных и кода . При рассмотрении рукописи для журнала, который не...

21
Методы увеличения данных для общих наборов данных?

Во многих приложениях машинного обучения так называемые методы дополнения данных позволили построить лучшие модели. Например, предположим, тренировочный набор из изображений кошек и собак. Вращением, зеркальным отображением, регулировкой контрастности и т. Д. Можно создавать дополнительные...

21
Как спроецировать новый вектор на пространство PCA?

После выполнения анализа главных компонентов (PCA) я хочу спроецировать новый вектор на пространство PCA (т.е. найти его координаты в системе координат PCA). Я рассчитал PCA на языке R, используя prcomp. Теперь я должен быть в состоянии умножить свой вектор на матрицу вращения PCA. Должны ли...

20
Переоснащение и подгонка

Я провел некоторое исследование о переоснащении и подборе снаряжения, и я понял, что именно они есть, но я не могу найти причины. Каковы основные причины переоснащения и недостаточного оснащения? Почему мы сталкиваемся с этими двумя проблемами при обучении...

20
Дистанционное наблюдение: под наблюдением, под наблюдением или оба?

«Дистанционный контроль» - это схема обучения, в которой классификатор обучается с использованием слабо маркированного обучающего набора (данные обучения автоматически маркируются на основе эвристики / правил). Я думаю, что как контролируемое обучение, так и полууправляемое обучение могут включать...

20
Разница между отсутствующими данными и разреженными данными в алгоритмах машинного обучения

Каковы основные различия между разреженными данными и отсутствующими данными? И как это влияет на машинное обучение? В частности, как редкие и отсутствующие данные влияют на алгоритмы классификации и регрессионные (прогнозирующие числа) типы алгоритмов. Я говорю о ситуации, когда процент...

19
Какие хорошие наборы данных для изучения основных алгоритмов машинного обучения и почему?

Я новичок в машинном обучении и ищу некоторые наборы данных, с помощью которых я могу сравнить и сравнить различия между различными алгоритмами машинного обучения (Деревья решений, Повышение, SVM и Нейронные сети) Где я могу найти такие наборы данных? Что я должен искать при рассмотрении набора...

19
Необходим хороший пример данных с ковариатами, на которые влияют обработки

Я рассмотрел множество наборов данных R, публикаций в DASL и других местах и ​​не нахожу очень много хороших примеров интересных наборов данных, иллюстрирующих анализ ковариации для экспериментальных данных. В статистических учебниках есть множество «игрушечных» наборов данных с надуманными...

18
Классификация тестирования данных с избыточным дискретизацией

Я работаю над сильно несбалансированными данными. В литературе для перебалансировки данных используется несколько методов с использованием повторной выборки (избыточной или недостаточной выборки). Два хороших подхода: SMOTE: Синтетическая техника пересчёта меньшинств ( SMOTE ) ADASYN: Адаптивный...

18
Руководство по обеспечению качества и контролю качества (QA / QC) для базы данных

Фон Я наблюдаю за вводом данных из первичной литературы в базу данных . Процесс ввода данных подвержен ошибкам, особенно потому, что пользователи должны интерпретировать экспериментальный дизайн, извлекать данные из графиков и таблиц и преобразовывать результаты в стандартизированные единицы....

18
Наборы данных социальных сетей

Locked . Этот вопрос и его ответы заблокированы, потому что вопрос не по теме, но имеет историческое значение. В настоящее время он не принимает новые ответы или взаимодействия. Я ищу наборы данных социальных сетей (Twitter, FriendFeed, Facebook, LastFM и т. Д.) Для задач классификации,...

17
Вычисление 95-го процентиля: сравнение нормального распределения, подходов R-квантиль и Excel

Я пытался вычислить 95-й процентиль для следующего набора данных. Я наткнулся на несколько онлайн-ссылок на это. Подход 1: на основе выборочных данных Первый один говорит мне , для получения TOP 95 Percentнабора данных , а затем выберите MINили AVGиз результирующего набора. Это дает мне следующий...

16
Где найти большой текстовый корпус? [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 6 лет назад . Я ищу большой (> 1000) текстовый корпус для загрузки. Желательно с мировыми новостями или какими-то...

16
Что такое хорошие наборы данных для иллюстрации отдельных аспектов статистического анализа?

Я понимаю, что это субъективно, но я подумал, что было бы неплохо поговорить о наших любимых наборах данных и о том, что, по нашему мнению, делает их интересными. Существует огромное количество данных, и что со всеми API (например, Datamob ) вместе с классическими наборами данных (например, данные...

16
Как влияет увеличение данных обучения на общую точность системы?

Может ли кто-то резюмировать для меня возможные примеры, в каких ситуациях увеличение обучающих данных улучшает общую систему? Когда мы обнаружим, что добавление большего количества данных для обучения может привести к переопределению данных и не дать точных данных теста? Это очень неспецифичный...

15
Лучше ли проводить анализ разведочных данных только на наборе обучающих данных?

Я делаю предварительный анализ данных (EDA) на наборе данных. Затем я выберу некоторые функции для прогнозирования зависимой переменной. Вопрос в том, должен ли я делать EDA только для своего набора данных для обучения? Или я должен объединить учебные и тестовые наборы данных, а затем выполнить EDA...

14
Как k-кратная перекрестная проверка подходит в контексте наборов обучения / проверки / тестирования?

Мой главный вопрос касается попыток понять, как k-кратная перекрестная проверка подходит в контексте наличия наборов обучения / проверки / тестирования (если это вообще подходит в таком контексте). Обычно люди говорят о разделении данных на набор для обучения, валидации и тестирования, скажем, с...

14
Как сделать увеличение данных и разделить проверку достоверности?

Я делаю классификацию изображений с использованием машинного обучения. Предположим, у меня есть некоторые тренировочные данные (изображения), и я разделю эти данные на обучающие и проверочные наборы. И я также хочу дополнить данные (создать новые изображения из оригинальных) путем случайных...

14
Бесплатный хостинг данных общественного интереса? [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 4 года назад . У меня есть почасовые и ежедневные отчеты о температуре для многих станций на...