Вопросы с тегом «text-mining»

11
применяя word2vec к небольшим текстовым файлам

Я совершенно новичок в word2vec, так что, пожалуйста, несите это со мной. У меня есть набор текстовых файлов, каждый из которых содержит набор твитов, между 1000-3000. Я выбрал общее ключевое слово ("kw1") и хочу найти семантически релевантные термины для "kw1", используя word2vec. Например, если...

11
В чем разница между векторизатором хеширования и векторизатором tfidf?

Я конвертирую корпус текстовых документов в векторы слов для каждого документа. Я пробовал это с помощью TfidfVectorizer и HashingVectorizer Я понимаю, что HashingVectorizerа не принимает во внимание IDFоценки, как TfidfVectorizerделает. Причина, по которой я все еще работаю с,...

11
Необучаемая функция обучения для NER

Я реализовал систему NER с использованием алгоритма CRF с моими функциями ручной работы, которые дали довольно хорошие результаты. Дело в том, что я использовал множество различных функций, включая POS-теги и леммы. Теперь я хочу сделать один и тот же NER для другого языка. Проблема в том, что я не...

11
Классификация документов с использованием сверточной нейронной сети

Я пытаюсь использовать CNN (сверточная нейронная сеть) для классификации документов. CNN для коротких текстовых / предложений было изучено во многих работах. Тем не менее, кажется, что ни один документ не использовал CNN для длинного текста или документа. Моя проблема заключается в том , что...

11
Как определить, является ли последовательность символов английским словом или шумом

Какие функции вы будете пытаться извлечь из списка слов для будущего предсказания, это уже существующее слово или просто беспорядок символов? Там есть описание задачи, которую я там нашел . Вы должны написать программу, которая может ответить, является ли данное слово английским. Это было бы легко...

10
Как определить сложность английского предложения?

Я работаю над приложением, чтобы помочь людям выучить английский как второй язык. Я подтвердил, что предложения помогают в изучении языка, предоставляя дополнительный контекст. Я сделал это, проведя небольшое исследование в классе из 60 учеников. Я добыл более ста тысяч предложений из Википедии для...

10
Лучшие языки для научных вычислений [закрыто]

Закрыто . Этот вопрос должен быть более сфокусированным . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он был сосредоточен только на одной проблеме, отредактировав этот пост . Закрыто 5 лет назад . Похоже, что большинство языков имеют некоторое...

10
Text-Classification-Problem: Word2Vec / NN - лучший подход?

Я рассчитываю разработать систему, которая с учетом абзаца текста сможет классифицировать его и определить контекст: Обучается с пользовательскими текстовыми параграфами (например, комментарии / вопросы / ответы) Каждый элемент в обучающем наборе будет помечен. Так, например, («категория 1»,...

10
Модель векторного пространства косинус tf-idf для поиска похожих документов

Иметь корпус более миллиона документов Для данного документа нужно найти похожие документы с использованием косинуса, как в модели векторного пространства d1⋅d2/(||d1||||d2||)d1⋅d2/(||d1||||d2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) Все tf были нормализованы с использованием увеличенной частоты,...

10
Сколько учебных данных нужно word2vec?

Я хотел бы сравнить разницу между одним и тем же словом, упомянутым в разных источниках. То есть, чем отличаются авторы в использовании плохо определенных слов, таких как «демократия». Краткий план был Возьмите книги с упоминанием термина «демократия» как простой текст В каждой книге заменить...

10
Несколько меток в контролируемом алгоритме обучения

У меня есть текстовый корпус с соответствующими темами. Например "A rapper Tupac was shot in LA"и было помечено как ["celebrity", "murder"]. Таким образом, в основном каждый вектор объектов может иметь много меток (не одинаковое количество. Первый вектор объектов может иметь 3 метки, второй 1,...

10
Анализ файла журнала: извлечение информационной части из части значения

Я пытаюсь создать набор данных из нескольких файлов журнала одного из наших продуктов. Различные файлы журналов имеют свой собственный макет и собственный контент; Я успешно сгруппировал их, остался всего один шаг ... Действительно, журнал «Сообщения» - лучшая информация. У меня нет исчерпывающего...

9
Предложить наборы учебных текстовых классификаторов

Какие свободно доступные наборы данных я могу использовать для обучения текстового классификатора? Мы пытаемся повысить заинтересованность наших пользователей, порекомендовав для него наиболее связанный контент, поэтому мы подумали, что если мы классифицируем наш контент на основе заранее...

9
какие методы машинного / глубокого обучения / nlp используются для классификации данных слов как имени, номера мобильного телефона, адреса, адреса электронной почты, штата, округа, города и т. д.

Я пытаюсь создать интеллектуальную модель, которая может сканировать набор слов или строк и классифицировать их как имена, мобильные номера, адреса, города, штаты, страны и другие объекты, используя машинное обучение или глубокое обучение. Я искал подходы, но, к сожалению, не нашел подходов. Я...