Вопросы с тегом «text-mining»

Относится к подмножеству интеллектуального анализа данных, связанному с извлечением информации из данных в форме текста путем распознавания шаблонов. Цель интеллектуального анализа текста часто состоит в том, чтобы автоматически классифицировать данный документ в одну из нескольких категорий и динамически улучшать эту производительность, что делает его примером машинного обучения. Одним из примеров такого типа интеллектуального анализа текста являются спам-фильтры, используемые для электронной почты.

78
Пример: регрессия LASSO с использованием glmnet для двоичного результата

Я начинаю баловаться с использованием glmnetс LASSO регрессией , где мой результат представляет интерес дихотомический. Я создал небольшой фрейм данных ниже: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91,...

36
Как квази сопоставить два вектора строк (в R)?

Я не уверен, как это следует называть, поэтому, пожалуйста, поправьте меня, если вы знаете лучший термин. У меня есть два списка. Один из 55 элементов (например, вектор строк), другой из 92. Имена элементов похожи, но не идентичны. Я хочу , чтобы найти лучший кандидат S в 92 списке элементов в...

32
Статистическая классификация текста

Я программист без статистического образования, и в настоящее время я смотрю на различные методы классификации для большого количества различных документов, которые я хочу классифицировать по заранее определенным категориям. Я читал о KNN, SVM и NN. Однако у меня есть некоторые проблемы с началом...

30
Техника машинного обучения для разбора строк?

У меня много адресных строк: 1600 Pennsylvania Ave, Washington, DC 20500 USA Я хочу разобрать их на составляющие: street: 1600 Pennsylvania Ave city: Washington province: DC postcode: 20500 country: USA Но, конечно, данные грязные: они поступают из многих стран на многих языках, написаны...

30
Насколько хорошо R масштабируется для текстовых задач классификации? [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыт 10 месяцев назад . Я пытаюсь ускорить работу с R. Я в конечном итоге хочу использовать библиотеки R для классификации...

29
Пакеты R для выполнения тематического моделирования / LDA: просто `topicmodels` и` lda` [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто в прошлом году . Мне кажется, что только два пакета R способны выполнять скрытое выделение Дирихле : Один из них lda,...

29
Разница между наивным байесовским и многочленным наивным байесовским

Я имел дело с наивным байесовским классификатором раньше. В последнее время я читаю о многокомном наивном байесовском . Также Задняя Вероятность = (Приоритет * Вероятность) / (Доказательства) . Единственное главное отличие (при программировании этих классификаторов), которое я обнаружил между...

28
В «Наивном байесовском», зачем беспокоиться о сглаживании Лапласа, когда в тестовом наборе есть неизвестные слова?

Я читал сегодня наивную байесовскую классификацию. Я прочитал под заголовком Оценка параметров с добавлением сглаживания 1 : Пусть ccc ссылается на класс (например, Positive или Negative), а указывает на токен или слово.www Оценка максимального правдоподобия для...

27
Является ли перекрестная проверка правильной заменой проверочного набора?

В классификации текста у меня есть тренировочный набор с около 800 сэмплами и тестовый набор с около 150 сэмплами. Тестовый набор никогда не использовался, и его ждут до конца. Я использую весь учебный набор из 800 образцов с 10-кратной перекрестной проверкой при настройке и настройке...

26
Тематические модели и методы совместного использования слов

Популярные тематические модели, такие как LDA, обычно объединяют слова, которые обычно объединяются в одну и ту же тему (кластер). В чем основное различие между такими тематическими моделями и другими простыми подходами кластеризации на основе совпадений, такими как PMI? (PMI расшифровывается как...

24
Мешок слов для классификации текста: почему бы просто не использовать частоты слов вместо TFIDF?

Распространенным подходом к классификации текста является тренировка классификатора из «мешка слов». Пользователь берет текст, который должен быть классифицирован, и подсчитывает частоты слов в каждом объекте, после чего следует какое-то усечение, чтобы сохранить результирующую матрицу...

20
Были ли воспроизведены современные результаты использования векторов абзацев для анализа настроений?

Я был впечатлен результатами в работе ICML 2014 года « Распределенное представление предложений и документов » Ле и Миколова. Техника, которую они описывают, называемая «векторами абзацев», изучает неконтролируемые представления произвольно длинных абзацев / документов на основе расширения модели...

19
Обучение под наблюдением, активное обучение и глубокое обучение для классификации

Окончательное редактирование со всеми обновленными ресурсами: Для проекта я применяю алгоритмы машинного обучения для классификации. Задача: довольно ограниченные помеченные данные и гораздо больше непомеченных данных. Цели: Применить классификацию под наблюдением Применять как-то...

18
Масштабная классификация текста

Я хочу сделать классификацию на мои текстовые данные. У меня есть 300 classes200 учебных документов на класс (так 60000 documents in total), и это, вероятно, приведет к очень большим размерам данных (возможно, мы просматриваем более 1 миллиона измерений ). Я хотел бы выполнить следующие шаги в...

18
Почему классификатор регрессии гребня работает достаточно хорошо для классификации текста?

Во время эксперимента по классификации текста я обнаружил, что классификатор гребней генерирует результаты, которые постоянно превосходят тесты среди тех классификаторов, которые чаще упоминаются и применяются для задач интеллектуального анализа текста, таких как SVM, NB, kNN и т. Д. Хотя я не...

18
Как рассчитать растерянность несогласных с латентным распределением Дирихле?

Я запутался в том, как рассчитать растерянность несдерживаемой пробы при выполнении скрытого распределения дирихле (LDA). Бумаги на эту тему очень легки, заставляя меня думать, что я упускаю что-то очевидное ... Недоумение считается хорошим показателем производительности для LDA. Идея состоит в...

18
Почему обработка естественного языка не входит в область машинного обучения? [закрыто]

В настоящее время этот вопрос не очень подходит для нашего формата вопросов и ответов. Мы ожидаем, что ответы будут подтверждены фактами, ссылками или опытом, но этот вопрос, скорее всего, вызовет дебаты, споры, опрос или расширенное обсуждение. Если вы считаете, что этот вопрос можно улучшить и,...

17
Я хочу построить индекс преступности и индекс политической нестабильности, основанный на новостях

У меня есть этот побочный проект, где я сканирую местные новостные сайты в моей стране и хочу создать индекс преступности и индекс политической нестабильности. Я уже освещал информационно-поисковую часть проекта. Мой план состоит в том, чтобы сделать: Неконтролируемая тема извлечения. Обнаружение...

17
Предсказание темы с использованием скрытого распределения Дирихле

Я использовал LDA на корпусе документов и нашел несколько тем. Вывод моего кода - две матрицы, содержащие вероятности; вероятности для одной темы и вероятность для другой темы. Но я на самом деле не знаю, как использовать эти результаты, чтобы предсказать тему нового документа. Я использую выборку...