Вопросы с тегом «text-mining»

17
Предсказание темы с использованием скрытого распределения Дирихле

Я использовал LDA на корпусе документов и нашел несколько тем. Вывод моего кода - две матрицы, содержащие вероятности; вероятности для одной темы и вероятность для другой темы. Но я на самом деле не знаю, как использовать эти результаты, чтобы предсказать тему нового документа. Я использую выборку...

16
Когда мы объединяем уменьшение размерности с кластеризацией?

Я пытаюсь выполнить кластеризацию на уровне документов. Я построил матрицу частот термина-документа, и я пытаюсь кластеризовать эти высокоразмерные векторы с помощью k-средних. Вместо непосредственной кластеризации я сначала применил разложение сингулярных векторов LSA (скрытый семантический...

15
Text Mining: как кластеризовать тексты (например, новостные статьи) с помощью искусственного интеллекта?

Я построил некоторые нейронные сети (MLP (полностью подключенные), Elman (рекуррентные)) для различных задач, таких как игра в понг, классификация рукописных цифр и прочее ... Кроме того, я попытался создать несколько первых сверточных нейронных сетей, например, для классификации многозначных...

15
Что такое хороший метод для кластеризации коротких текстов?

Я работаю над проблемой кластеризации текста. Данные содержат несколько предложений. Есть хороший алгоритм, который достигает высокой точности на коротком тексте? Можете ли вы предоставить хорошие ссылки? Алгоритмы, такие как KMeans, спектральная кластеризация не работают хорошо для этой проблемы....

14
Как сделать одноклассную классификацию текста?

Мне приходится иметь дело с проблемой классификации текста. Сканер сканирует веб-страницы определенного домена, и для каждой веб-страницы я хочу выяснить, принадлежит ли он только одному конкретному классу или нет. То есть, если я назову этот класс " Позитивным" , каждая просканированная...

14
Тематические модели для коротких документов

Вдохновленный этим вопросом , мне интересно, была ли проделана какая-либо работа над тематическими моделями для больших коллекций чрезвычайно коротких текстов. Моя интуиция заключается в том, что Twitter должен быть естественным источником вдохновения для таких моделей. Однако, из-за некоторых...

14
Примеры интеллектуального анализа текста с помощью R (пакет tm)

Я потратил три дня на то, чтобы поболтать с tmчитателем черновика статьи от друга, где он исследовал текстовый корпус с помощью UCINET, показывая текстовые облака, двухрежимные сетевые графики и разложение по одному значению (с графикой, используя Stata). Я столкнулся с большим количеством проблем:...

13
При чем n-граммы становятся контрпродуктивными?

При обработке на естественном языке можно взять корпус и оценить вероятность появления следующего слова в последовательности из n. n обычно выбирается как 2 или 3 (биграммы и триграммы). Есть ли известная точка, в которой отслеживание данных для n-й цепочки становится контрпродуктивным, учитывая...

12
Что такое пакеты интеллектуального анализа текста для R и существуют ли другие программы для анализа текста с открытым исходным кодом?

Можете ли вы порекомендовать пакет интеллектуального анализа текста в R, который можно использовать для больших объемов данных? Во-вторых, есть ли графический интерфейс для любого из пакетов интеллектуального анализа текста в R? В-третьих, есть ли другая программа для анализа текста с открытым...

12
Автоматическое извлечение ключевых слов: использование косинусных сходств в качестве функций

У меня есть матрица термина документа , и теперь я хотел бы извлечь ключевые слова для каждого документа с помощью контролируемого метода обучения (SVM, Naive Bayes, ...). В этой модели я уже использую Tf-idf, тег Pos, ...MMM Но теперь я задаюсь вопросом о nexts. У меня есть матрица с косинусом...

12
Почему n-грамм используется в идентификации текста вместо слов?

В двух популярных библиотеках идентификации языка, Compact Language Detector 2 для C ++ и Language Detector для Java, обе они использовали (на основе символов) n-граммы для извлечения текстовых функций. Почему пакет слов (одно слово / словарь) не используется, и каковы преимущества и недостатки...

11
Инкрементальный IDF (обратная частота документов)

В приложении для интеллектуального анализа текста одним простым подходом является использование эвристики для создания векторов в виде компактных разреженных представлений документов. Это хорошо для настройки пакета, когда весь корпус известен априори, так как для требуется весь корпусi d fт ф- я...

11
Хорошие книги по добыче текста?

Привет, я хотел узнать, есть ли хорошие книги по интеллектуальному анализу и классификации текста с некоторыми примерами? Если бы не некоторые документы / журналы, доступные для общественности, подойдут. Если они иллюстрируют свои примеры с R еще лучше. Я не ищу пошаговое руководство, но что-то,...

10
Относительно использования биграммы (N-грамма) для построения векторного элемента для текстового документа

Традиционный подход к построению объектов для интеллектуального анализа текста - это подход «мешок слов», и его можно усовершенствовать с помощью tf-idf для настройки вектора объектов, характеризующего данный текстовый документ. В настоящее время я пытаюсь использовать модель языка биграмм или...

10
Понимание использования логарифмов в логарифме TF-IDF

Я читал: https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition Но я не могу понять, почему именно формула была построена такой, какая она есть. Что я делаю Понять: iDF должен на каком-то уровне измерять, как часто термин S появляется в каждом из документов, уменьшаясь в значении по мере того, как...

9
Понимание и применение анализа настроений

Мне только что поручили проект проведения анализа настроений для некоторых коллекций документов. По словам Гуглинга, появилось много исследований, связанных с настроениями. Мои вопросы: Каковы основные методы / алгоритмы анализа настроений в области машинного обучения и статистического анализа?...

9
Как выполнить многократные тесты хи-квадрат после таблицы 2 на 3?

Мой набор данных состоит из общей смертности или выживания организма в трех типах участков: на берегу, в среднем и на расстоянии от берега. Цифры в таблице ниже представляют количество сайтов. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Я хотел бы знать, является ли...