Вопросы с тегом «data-mining»

14
Почему ансамбли так неоправданно эффективны?

Кажется, стало аксиоматичным, что ансамбль учащихся приводит к наилучшим возможным результатам модели - и это становится все более редким, например, для отдельных моделей, чтобы выиграть соревнования, такие как Kaggle. Есть ли теоретическое объяснение, почему ансамбли так чертовски...

14
Использование атрибутов для классификации / кластеризации пользовательских профилей

У меня есть набор данных пользователей, покупающих продукты с веб-сайта. У меня есть следующие атрибуты: идентификатор пользователя, регион (штат) пользователя, идентификатор категории продукта, идентификатор ключевых слов продукта, идентификатор ключевых слов веб-сайта и объем продаж продукта....

13
Есть ли какие-либо API для сканирования рефератов?

Если у меня есть очень длинный список названий статей, как я могу получить эти документы из Интернета или из какой-либо базы данных? Названия статей похожи на «Оценка полезности в веб-майнинге для сферы общественного здравоохранения». Кто-нибудь знает API, который может дать мне решение? Я...

13
Neo4j против OrientDB против Титана

Я работаю над научно-исследовательским проектом, связанным с анализом социальных отношений, и мне нужно хранить данные в некоторых графовых базах данных. Изначально я выбрал Neo4j в качестве базы данных. Но швы Neo4j плохо масштабируются. Альтернатива, которую я обнаружил, это Titan и oriebtDB. Я...

13
Пример больших данных или пример использования

Я читал много блогов \ статей о том, как разные типы отраслей используют Big Data Analytic. Но в большинстве этих статей не упоминается Какие данные эти компании использовали. Каков был размер данных Какие инструменты технологий они использовали для обработки данных В чем заключалась проблема, с...

13
Распознать грамматику в последовательности нечетких токенов

У меня есть текстовые документы, которые содержат в основном списки предметов. Каждый элемент представляет собой группу из нескольких токенов разных типов: FirstName, LastName, BirthDate, PhoneNumber, City, Occupation и т. Д. Маркер представляет собой группу слов. Предметы могут лежать на...

13
В чем разница между одной горячей кодировкой и одной внешней кодировкой?

Я читаю презентацию, и она рекомендует не использовать кодировку "оставь один", но с одной горячей кодировкой все в порядке. Я думал, что они оба были одинаковыми. Кто-нибудь может описать, в чем различия между...

12
Является ли FPGrowth по-прежнему «современным» в частом поиске паттернов?

Насколько мне известно, разработка алгоритмов для решения проблемы Frequen Pattern Mining (FPM), путь улучшения имеет несколько основных контрольных точек. Во-первых, алгоритм Apriori был предложен в 1993 году Agrawal et al. наряду с формализацией проблемы. Алгоритм был в состоянии убрать некоторые...

12
Тарифы авиакомпаний - Какой анализ следует использовать для выявления конкурентного поведения при установлении цен и ценовых корреляций?

Я хочу исследовать поведение авиакомпаний в отношении ценообразования - особенно то, как авиакомпании реагируют на ценообразование конкурентов. Как я сказал бы, мои знания о более сложном анализе довольно ограничены, я использовал в основном все основные методы для сбора общего представления о...

11
Как избежать переобучения в случайном лесу?

Я хочу избежать переобучения в случайном лесу. В связи с этим я намерен использовать mtry, nodeize, maxnodes и т. Д. Не могли бы вы помочь мне выбрать значения для этих параметров? Я использую R. Также, если возможно, скажите, пожалуйста, как я могу использовать перекрестную проверку в k-кратном...

11
Как я могу соответствовать категориальным типам данных для классификации случайных лесов?

Мне нужно найти точность набора обучающих данных, применяя алгоритм случайного леса. Но мой тип набора данных - как категориальный, так и числовой. Когда я пытался уместить эти данные, я получаю сообщение об ошибке. 'Вход содержит NaN, бесконечность или значение, слишком большое для dtype ('...

11
Существуют ли хорошие готовые языковые модели для Python?

Я создаю прототип приложения и мне нужна языковая модель для вычисления недоумения в некоторых сгенерированных предложениях. Есть ли в Python обученная языковая модель, которую я могу легко использовать? Что-то простое, как model = LanguageModel('en') p1 = model.perplexity('This is a well...

11
Отношения между KS, AUROC и Gini

Общая статистика валидации модели, такая как критерий Колмогорова – Смирнова (KS), AUROC и коэффициент Джини , все функционально связаны. Однако мой вопрос касается доказательства того, как все это связано. Мне любопытно, если кто-нибудь может помочь мне доказать эти отношения. Я не смог ничего...

11
LinkedIn веб-соскоб

Недавно я обнаружил новый пакет R для подключения к LinkedIn API. К сожалению, API LinkedIn кажется довольно ограниченным для начала; Например, вы можете получить только базовые данные о компаниях, а это отдельно от данных о физических лицах. Я хотел бы получить данные обо всех сотрудниках данной...

11
Работа с кластерами HPC

В моем университете у нас есть вычислительный кластер HPC. Я использую кластер для обучения классификаторов и так далее. Поэтому, обычно для отправки задания в кластер (например, сценарий python scikit-learn) мне нужно написать сценарий Bash, который содержит (среди прочего) такую ​​команду qsub...

11
Сколько данных достаточно для обучения моей модели машинного обучения?

Я некоторое время работал над машинным обучением и биоинформатикой, и сегодня у меня был разговор с коллегой по основным общим вопросам интеллектуального анализа данных. Мой коллега (который является экспертом по машинному обучению) сказал, что, по его мнению, возможно, наиболее важный практический...

10
Как почистить IMDB веб-страницу?

Я пытаюсь самостоятельно изучить работу с использованием Python как часть усилий по изучению анализа данных. Я пытаюсь очистить веб-страницу imdb, URL которой следующий: http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=feature&year=1950,2012 Я использую модуль...

10
Масштабируемый выброс / обнаружение аномалий

Я пытаюсь настроить инфраструктуру больших данных, используя Hadoop, Hive, Elastic Search (среди прочих), и я хотел бы запустить некоторые алгоритмы для определенных наборов данных. Мне бы хотелось, чтобы сами алгоритмы были масштабируемыми, поэтому это исключает использование таких инструментов,...

10
Почему несколько типов моделей могут давать почти одинаковые результаты?

Я анализировал набор данных из ~ 400 тыс. Записей и 9 переменных. Зависимая переменная является двоичной. Я установил логистическую регрессию, дерево регрессии, случайный лес и дерево с градиентным повышением. Все они дают виртуально идентичные данные соответствия, когда я проверяю их на другом...

10
Лучшие языки для научных вычислений [закрыто]

Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 5 лет назад . Похоже, что большинство языков имеют некоторое...