Вопросы с тегом «data-mining»

10
Лучшие языки для научных вычислений [закрыто]

Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 5 лет назад . Похоже, что большинство языков имеют некоторое...

10
Как отладить анализ данных?

Я столкнулся со следующей проблемой, которая, по моему мнению, довольно типична. У меня есть большие данные, скажем, несколько миллионов строк. Я провел некоторый нетривиальный анализ, например, SQL-запрос, состоящий из нескольких подзапросов. Я получаю некоторый результат, утверждая, например, что...

10
Визуализация предметов, часто покупаемых вместе

У меня есть набор данных в следующей структуре, вставленной в файл CSV: Banana Water Rice Rice Water Bread Banana Juice Каждая строка указывает коллекцию предметов, которые были куплены вместе. Например, первая строка обозначает, что элементыBanana , Waterи Riceбыли приобретены вместе. Я хочу...

10
Масштабируемый выброс / обнаружение аномалий

Я пытаюсь настроить инфраструктуру больших данных, используя Hadoop, Hive, Elastic Search (среди прочих), и я хотел бы запустить некоторые алгоритмы для определенных наборов данных. Мне бы хотелось, чтобы сами алгоритмы были масштабируемыми, поэтому это исключает использование таких инструментов,...

10
Как почистить IMDB веб-страницу?

Я пытаюсь самостоятельно изучить работу с использованием Python как часть усилий по изучению анализа данных. Я пытаюсь очистить веб-страницу imdb, URL которой следующий: http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=feature&year=1950,2012 Я использую модуль...

10
Пользователь-продукт положительный (нажмите данные) доступны. Как генерировать негатив (данные без кликов)?

Рекомендуется, чтобы у нас были данные о пользовательских продуктах, которые помечены, например, как «клик». Чтобы узнать модель, мне нужны данные по кликам и без кликов. Простейший подход к генерации - это взять пары продуктов пользователя, которые не найдены в данных о кликах. Однако это может...

10
Что быстрее: PostgreSQL против MongoDB на больших наборах данных JSON?

У меня есть большой набор данных с 9-метровыми объектами JSON по ~ 300 байт каждый. Это сообщения из агрегатора ссылок: в основном ссылки (URL, заголовок и идентификатор автора) и комментарии (текст и идентификатор автора) + метаданные. Они вполне могут быть реляционными записями в таблице, за...

9
Как создать хороший список стоп-слов

Я ищу несколько советов о том, как составить список стоп-слов. Кто-то знает / кто-то может порекомендовать хороший метод для извлечения списков стоп-слов из самого набора данных для предварительной обработки и фильтрации? Данные: огромное количество вводимого человеком текста различной длины...

9
Как смоделировать покупательское поведение пользователя на Amazon?

Для нашего окончательного курсового проекта в Data Science мы предложили следующее: Предоставляя набор данных Amazon Reviews , мы планируем разработать алгоритм (который примерно основан на персонализированном PageRank), который определяет стратегическую позицию для размещения рекламы на Amazon....

9
Распознавание человеческой деятельности с помощью набора данных смартфона

Я новичок в этом сообществе, и, надеюсь, мой вопрос вполне уместится здесь. В рамках моего курса по анализу данных для студентов я выбрал проект по распознаванию человеческой деятельности с использованием наборов данных смартфона. Что касается меня, то эта тема касается машинного обучения и опорных...

9
Реляционный Data Mining без ILP

У меня есть огромный набор данных из реляционной базы данных, для которого мне нужно создать модель классификации. Обычно для этой ситуации я бы использовал индуктивное логическое программирование (ILP), но из-за особых обстоятельств я не могу этого сделать. Другой способ решения этой проблемы -...

9
Кодирование обучающего сигнала

У меня есть большое количество выборок, которые представляют битовые потоки, закодированные в Манчестере, в виде аудиосигналов. Частота, на которой они кодируются, является основной составляющей частоты, когда она высокая, и на заднем плане присутствует постоянный уровень белого шума. Я вручную...