Вопросы с тегом «text-mining»

Относится к подмножеству интеллектуального анализа данных, связанному с извлечением информации из данных в форме текста путем распознавания шаблонов. Цель интеллектуального анализа текста часто состоит в том, чтобы автоматически классифицировать данный документ в одну из нескольких категорий и динамически улучшать эту производительность, что делает его примером машинного обучения. Одним из примеров такого типа интеллектуального анализа текста являются спам-фильтры, используемые для электронной почты.

34
Каковы некоторые стандартные способы вычисления расстояния между документами?

Когда я говорю «документ», я имею в виду веб-страницы, такие как статьи Википедии и новости. Я предпочитаю ответы, дающие либо ванильные лексические метрики расстояния, либо современные семантические метрики расстояния, с большим предпочтением к...

29
Почему xgboost намного быстрее, чем sklearn GradientBoostingClassifier?

Я пытаюсь обучить модели повышения градиента более чем на 50 тыс. Примеров с 100 числовыми функциями. XGBClassifierобрабатывает 500 деревьев в течение 43 секунд на моей машине, в то время как GradientBoostingClassifierобрабатывает только 10 деревьев (!) за 1 минуту и ​​2 секунды :( Я не стал...

28
Какие алгоритмы я должен использовать для выполнения классификации работы на основе данных резюме?

Обратите внимание, что я делаю все в R. Проблема заключается в следующем: В основном, у меня есть список резюме (резюме). Некоторые кандидаты будут иметь опыт работы раньше, а некоторые нет. Цель здесь состоит в том, чтобы: основываясь на тексте их резюме, я хочу классифицировать их по различным...

20
В чем разница между классификацией текста и тематическими моделями?

Я знаю разницу между кластеризацией и классификацией в машинном обучении, но я не понимаю разницу между классификацией текста и тематическим моделированием для документов. Могу ли я использовать моделирование темы поверх документов, чтобы определить тему? Могу ли я использовать методы классификации...

20
Извлечение ключевого слова / фразы из текста с использованием библиотек Deep Learning

Возможно, это слишком широко, но я ищу ссылки на то, как использовать глубокое обучение в задаче обобщения текста. Я уже реализовал суммирование текста, используя стандартные частотно-частотные подходы и ранжирование предложений, но я хотел бы изучить возможность использования методов глубокого...

19
Как вырастить список связанных слов на основе начальных ключевых слов?

Недавно я увидел интересную функцию, которая когда- то была доступна в Google Sheets: вы начинаете с написания нескольких связанных ключевых слов в последовательных ячейках, скажем: «синий», «зеленый», «желтый», и автоматически генерирует похожие ключевые слова (в данном случае другие цвета)....

19
Что такое расстояние Хеллингера и когда его использовать?

Мне интересно знать, что на самом деле происходит на расстоянии Хеллингера (простыми словами). Кроме того, мне также интересно узнать, какие типы проблем мы можем использовать для расстояния Хеллингера? Каковы преимущества использования Hellinger...

18
Как аннотировать текстовые документы с метаданными?

Имея много текстовых документов (на естественном языке, неструктурированных), каковы возможные способы аннотирования их некоторыми семантическими метаданными? Например, рассмотрим короткий документ: I saw the company's manager last day. Чтобы иметь возможность извлекать информацию из нее, она...

17
Doc2Vec - Как пометить абзацы (gensim)

Мне интересно, как пометить (пометить) предложения / абзацы / документы с помощью doc2vec в gensim - с практической точки зрения. Вам нужно иметь каждое предложение / абзац / документ со своей уникальной меткой (например, «Sent_123»)? Это кажется полезным, если вы хотите сказать «какие слова или...

17
Алгоритмы для кластеризации текста

У меня проблема с кластеризацией огромного количества предложений по группам по смыслу. Это похоже на проблему, когда у вас много предложений и вы хотите сгруппировать их по значению. Какие алгоритмы предлагаются для этого? Я не знаю количество кластеров заранее (и по мере поступления новых данных...

16
сделать морскую карту тепла больше

Я создаю corr()DF из оригинального DF. corr()ДФ вышел 70 X 70 и невозможно представить себе Heatmap ... sns.heatmap(df). Если я попытаюсь отобразить corr = df.corr(), таблица не умещается на экране, и я вижу все корреляции. Это способ печати всего, dfнезависимо от его размера, или контроля размера...

16
Извлечение наиболее информативных частей текста из документов

Есть ли какие-либо статьи или дискуссии по поводу извлечения части текста, которая содержит большую часть информации о текущем документе. Например, у меня большой корпус документов из того же домена. Есть части текста, которые содержат ключевую информацию, о которой говорит отдельный документ. Я...

14
Как сделать нечеткое совпадение почтовых адресов?

Я хотел бы знать, как сопоставить почтовые адреса, когда их формат отличается или когда один из них введен неправильно. Пока я нашел разные решения, но думаю, что они довольно старые и не очень эффективные. Я уверен, что существуют лучшие методы, так что если у вас есть ссылки для чтения, я уверен,...

13
Распознать грамматику в последовательности нечетких токенов

У меня есть текстовые документы, которые содержат в основном списки предметов. Каждый элемент представляет собой группу из нескольких токенов разных типов: FirstName, LastName, BirthDate, PhoneNumber, City, Occupation и т. Д. Маркер представляет собой группу слов. Предметы могут лежать на...

13
Этическое и экономичное масштабирование данных

Немногие вещи в жизни доставляют мне удовольствие, например, извлечение структурированных и неструктурированных данных из Интернета и использование их в моих моделях. Например, Data Science Toolkit (или RDSTKдля программистов на R) позволяет мне получать много хороших данных, основанных на...

12
Классификация неструктурированного текста

Я собираюсь классифицировать неструктурированные текстовые документы, а именно сайты неизвестной структуры. Количество классов, которые я классифицирую, ограничено (на данный момент я считаю, что их не более трех). У кого-нибудь есть предложения о том, как мне начать? Возможен ли подход "мешок...

12
Алгоритм сопоставления предпочтений

Есть этот побочный проект, над которым я работаю, где мне нужно структурировать решение следующей проблемы. У меня есть две группы людей (клиентов). Группа Aнамеревается купить, и группа Bнамеревается продать определенный продукт X. Продукт имеет ряд атрибутов x_i, и моя цель состоит в том, чтобы...

12
Альтернативы TF-IDF и Cosine Similarity при сравнении документов разных форматов

Я работал над небольшим, личным проектом, который берет навыки работы пользователя и предлагает наиболее идеальную карьеру для них на основе этих навыков. Я использую базу данных списков вакансий для достижения этой цели. На данный момент код работает следующим образом: 1) Обработайте текст каждого...

11
Использование кластеризации в обработке текста

Привет, это мой первый вопрос в стеке Data Science. Я хочу создать алгоритм классификации текста. Предположим, у меня есть большой набор текста и статей. Скажем, около 5000 простых текстов. Сначала я использую простую функцию, чтобы определить частоту всех четырех и выше символов слова. Затем я...