Вопросы с тегом «dataset»

12
почему мы должны справиться с дисбалансом данных?

Мне нужно знать, почему мы должны бороться с дисбалансом данных. Я знаю, как с этим справляться, и различными методами для решения проблемы, которая заключается в повышении или понижении или использовании Smote. Например, если у меня редкое заболевание 1% из 100, и, скажем, я решил иметь...

11
Сколько данных достаточно для обучения моей модели машинного обучения?

Я некоторое время работал над машинным обучением и биоинформатикой, и сегодня у меня был разговор с коллегой по основным общим вопросам интеллектуального анализа данных. Мой коллега (который является экспертом по машинному обучению) сказал, что, по его мнению, возможно, наиболее важный практический...

11
Где я могу скачать историческую рыночную капитализацию и ежедневные данные об обороте акций?

Существует множество источников, которые предоставляют исторические данные о запасах, но они предоставляют только поля OHLC вместе с объемом и скорректированным закрытием. Также несколько источников, которые я нашел, предоставляют наборы рыночной капитализации, но они ограничены акциями США. Yahoo...

11
Существуют ли хорошие готовые языковые модели для Python?

Я создаю прототип приложения и мне нужна языковая модель для вычисления недоумения в некоторых сгенерированных предложениях. Есть ли в Python обученная языковая модель, которую я могу легко использовать? Что-то простое, как model = LanguageModel('en') p1 = model.perplexity('This is a well...

10
Когда мы должны считать набор данных несбалансированным?

Я сталкиваюсь с ситуацией, когда количество положительных и отрицательных примеров в наборе данных несбалансировано. Мой вопрос заключается в том, есть ли какие-то практические правила, которые говорят нам, когда нам следует отбирать большую категорию, чтобы навязать некоторый баланс в наборе...

10
Сетевой анализ классических наборов данных

Существует несколько классических наборов данных для задач классификации / регрессии машинного обучения. Наиболее популярными являются: Набор данных Iris Flower ; Титаник Набор Данных ; Motor Trend Cars ; и т.п. Но кто-нибудь знает подобные наборы данных для анализа сетей / теории графов? Более...

9
Как смоделировать покупательское поведение пользователя на Amazon?

Для нашего окончательного курсового проекта в Data Science мы предложили следующее: Предоставляя набор данных Amazon Reviews , мы планируем разработать алгоритм (который примерно основан на персонализированном PageRank), который определяет стратегическую позицию для размещения рекламы на Amazon....

9
Наборы эталонных данных для совместной фильтрации

Я хотел бы протестировать новый алгоритм совместной фильтрации . Типичный вариант использования - рекомендовать фильмы на основе предпочтений пользователей, похожих на конкретного пользователя. Какие наборы эталонных данных часто используют исследователи для проверки своих алгоритмов? Я знаю, что в...

9
Может ли HDF5 надежно записываться и считываться одновременно отдельными процессами Python?

Я пишу сценарий для записи живых данных с течением времени в один файл HDF5, который включает весь мой набор данных для этого проекта. Я работаю с Python 3.6 и решил создать инструмент командной строки, используя clickдля сбора данных. Меня беспокоит, что произойдет, если сценарий сбора данных...

9
Предложить наборы учебных текстовых классификаторов

Какие свободно доступные наборы данных я могу использовать для обучения текстового классификатора? Мы пытаемся повысить заинтересованность наших пользователей, порекомендовав для него наиболее связанный контент, поэтому мы подумали, что если мы классифицируем наш контент на основе заранее...