Наука о данных

12
Как запрос в огромную базу данных возвращает с незначительной задержкой?

Например, при поиске в Google результаты возвращаются практически мгновенно. Я понимаю, что Google сортирует и индексирует страницы с помощью алгоритмов и т. Д., Но я считаю невозможным индексировать результаты каждого отдельного запроса (и результаты персонализируются, что делает это еще более...

12
Инструменты с открытым исходным кодом для помощи в майнинг-потоке результатов лидеров.

Рассмотрим поток, содержащий кортежи, (user, new_score) представляющие оценки пользователей в онлайн-игре. Поток может иметь 100-1000 новых элементов в секунду. В игре 200K до 300K уникальных игроков. Я хотел бы иметь несколько постоянных запросов, таких как: Какие игроки опубликовали более x...

12
Как оживить рост социальной сети?

Я ищу библиотеку / инструмент для визуализации того, как меняется социальная сеть, когда к ней добавляются новые узлы / ребра. Одним из существующих решений является SoNIA: аниматор социальных сетей . Это позволяет вам делать фильмы, как этот . Документация SoNIA гласит, что в данный момент она не...

12
Экземпляры против ядер при использовании EC2

Работая над проектами, которые часто называют «средними данными», я смог распараллелить мой код (в основном для моделирования и прогнозирования в Python) в одной системе в любом месте от 4 до 32 ядер. Сейчас я смотрю на масштабирование до кластеров в EC2 (возможно, с помощью StarCluster / IPython,...

12
Компромиссы между Storm и Hadoop (MapReduce)

Может ли кто-нибудь любезно рассказать мне о компромиссах, возникающих при выборе между Storm и MapReduce в Hadoop Cluster для обработки данных? Конечно, помимо очевидного, что Hadoop (обработка с помощью MapReduce в кластере Hadoop) является системой пакетной обработки, а Storm - системой...

12
Какие простые в освоении приложения для машинного обучения? [закрыто]

Закрыто . Этот вопрос основан на мнении . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы ответить на него фактами и цитатами, отредактировав этот пост . Закрыто 5 лет назад . Будучи новичком в машинном обучении в целом, я хотел бы начать играть и...

12
Amazon RedShift заменяет Hadoop для данных ~ 1XTB?

Вокруг Hadoop и его экосистемы много ажиотажа. Однако на практике, когда многие наборы данных находятся в терабайтовом диапазоне, не более ли разумно использовать Amazon RedShift для запросов больших наборов данных, вместо того, чтобы тратить время и усилия на создание кластера Hadoop? Кроме того,...

12
В чем разница между глобальным и универсальным методами сжатия?

Я понимаю, что методы сжатия можно разделить на два основных набора: Глобальный местный Первый набор работает независимо от обрабатываемых данных, т. Е. Они не зависят от какой-либо характеристики данных и, следовательно, не требуют какой-либо предварительной обработки какой-либо части набора...

12
Алгоритм сопоставления предпочтений

Есть этот побочный проект, над которым я работаю, где мне нужно структурировать решение следующей проблемы. У меня есть две группы людей (клиентов). Группа Aнамеревается купить, и группа Bнамеревается продать определенный продукт X. Продукт имеет ряд атрибутов x_i, и моя цель состоит в том, чтобы...

12
Измерение производительности различных классификаторов с различными размерами выборки

В настоящее время я использую несколько различных классификаторов для различных сущностей, извлеченных из текста, и использую точность / отзыв в качестве сводки того, насколько хорошо работает каждый отдельный классификатор в данном наборе данных. Мне интересно, есть ли реальный способ сравнения...

12
Является ли FPGrowth по-прежнему «современным» в частом поиске паттернов?

Насколько мне известно, разработка алгоритмов для решения проблемы Frequen Pattern Mining (FPM), путь улучшения имеет несколько основных контрольных точек. Во-первых, алгоритм Apriori был предложен в 1993 году Agrawal et al. наряду с формализацией проблемы. Алгоритм был в состоянии убрать некоторые...

12
Эффективная модель базы данных для хранения данных, проиндексированных с помощью n-грамм

Я работаю над приложением, которое требует создания очень большой базы данных n-грамм, которые существуют в большом текстовом корпусе. Мне нужны три эффективных типа операций: поиск и вставка, проиндексированные самой n-граммой, и запрос всех n-граммов, которые содержат вложенную n-грамм. Для меня...

12
Предсказание следующего состояния здоровья из прошлых условий в данных претензий

В настоящее время я работаю с большим количеством данных о страховых случаях, включая некоторые лабораторные и аптечные претензии. Однако наиболее согласованная информация в наборе данных состоит из диагноза (ICD-9CM) и кодов процедур (CPT, HCSPCS, ICD-9CM). Мои цели: Выявить наиболее влиятельные...

12
Данные настроения для Emoji

Для экспериментов мы хотели бы использовать эмодзи, встроенные во многие твиты, в качестве базовых данных о правде / обучении для простого количественного анализа настроений. Твиты обычно слишком неструктурированы для НЛП, чтобы работать хорошо. Так или иначе, в Unicode 6.0 есть 722 Emoji, и,...

12
Классификация неструктурированного текста

Я собираюсь классифицировать неструктурированные текстовые документы, а именно сайты неизвестной структуры. Количество классов, которые я классифицирую, ограничено (на данный момент я считаю, что их не более трех). У кого-нибудь есть предложения о том, как мне начать? Возможен ли подход "мешок...

12
Хеширование - что на самом деле происходит

Когда алгоритмы ML, например, Vowpal Wabbit или некоторые из машин факторизации, побеждающих в конкурсе кликов ( Kaggle ), упоминают, что функции «хэшированы», что это на самом деле означает для модели? Допустим, есть переменная, которая представляет идентификатор интернет-добавления, который...

12
Моделирование неравномерно распределенных временных рядов

У меня есть непрерывная переменная, отобранная в течение года с нерегулярными интервалами. Некоторые дни имеют более одного наблюдения в час, в то время как другие периоды не имеют ничего в течение нескольких дней. Это делает особенно сложным обнаружение закономерностей во временных рядах,...

12
Помощь относительно NER в NLTK

Я работал в NLTK некоторое время с использованием Python. Проблема, с которой я сталкиваюсь, заключается в том, что они не могут получить помощь по обучению NER в NLTK с моими пользовательскими данными. Они использовали MaxEnt и обучили его на корпусе ACE. Я много искал в Интернете, но я не смог...

12
Что такое «старое имя» специалиста по данным?

Такие термины, как «наука о данных» и «ученый данных» все чаще используются в наши дни. Многие компании нанимают «ученого данных». Но я не думаю, что это совершенно новая работа. Данные существовали из прошлого, и кто-то должен был иметь дело с данными. Я думаю, что термин «ученый данных»...