Моя компания стремится создать PivotViewer для визуализации клиентских сообщений в блоге Wordpress 2 за последние 11 лет. Однако для этого нам нужно отредактировать несколько случайных, неполных и, как правило, плохих тегов для использования в качестве сортируемых категорий. Я ищу инструмент, который будет анализировать их записи в блоге и выполнять подсчет слов, чтобы дать нам представление о том, с чем мы имеем дело.
В идеале, он будет иметь все эти функции:
- Черный список слов (игнорировать)
- Слово stemming
- Пользовательский синоним слияния
- Подсчет всех использований
- Подсчет количества постов, в которых появляется слово.
Я бы подумал, что такого рода текстовый анализ был бы чрезвычайно распространенным, но я не смог найти ни одного программного обеспечения, которое бы делало подобные вещи во всех блогах. Есть ли программное обеспечение для этого?
software-rec
statistics
blogging
word-count
Брайан Бауман
источник
источник
Ответы:
Программное обеспечение, которое вы ищете, может иметь много названий, таких как «Анализ содержимого» , «Облако тегов» или «Метатеги» и многие другие, такие как «Анализ текста» и «Анализ текста».
Для этих целей существует очень много программных инструментов, как бесплатных, так и коммерческих.
У меня нет личного опыта работы с такими инструментами, но хорошее место для начала - инструменты анализа текста , в которых перечислены десятки таких инструментов, как бесплатных, так и коммерческих.
Другим таким списком является программное обеспечение для анализа текста, интеллектуального анализа текста и поиска информации .
источник
Взгляните на Rapidminer или Weka
Видя, что это блог клиента, у вас, вероятно, есть доступ к базе данных. Загрузите все статьи в виде открытого текста и используйте одну из вышеперечисленных программ для решения вопросов обработки естественного языка (1, 2, 3 и 5).
Количество применений трудно по-настоящему автоматизировать, поскольку оно связано с автоматическим определением значения слов с использованием контекста.
источник
WordStat - одна из самых популярных программ анализа контента, разработанная Provalis Research.
WordStat - это модуль анализа текста для QDA Miner или SimStat. WordStat объединяет метод анализа содержимого с использованием словарного подхода и множества алгоритмов исследования или различных методов анализа текста. WordStat может применять существующие словари категоризации к новому текстовому корпусу. Он также может быть использован при разработке и валидации новых словарей категоризации. При использовании в сочетании с ручным кодированием этот модуль может помочь в более систематическом применении правил кодирования, помочь выявить различия в использовании слов между подгруппами отдельных лиц и помочь в пересмотре существующего кодирования с использованием таблиц KWIC (Keyword In Context). WordStat специально разработан для изучения текстовой информации, такой как ответы на открытые вопросы, интервью, заголовки, журнальные статьи, публичные выступления, электронные сообщения и т. Д.
http://provalisresearch.com/products/content-analysis-software/
источник
Вы можете попробовать Mathematica Wolfram's попробовать. Вам придется немного программировать, но все необходимые инструменты есть:
источник
На некоторые из этих вопросов можно было бы быстро и грязно ответить с помощью поиска Google в своем блоге (проще всего, если у него есть собственный домен).
источник
Земанта проводит анализ и может предложить теги и ссылки. Это плагин WordPress тоже.
Единственная проблема: в настоящее время она требует ручного открытия, выбора и сохранения каждого сообщения.
Хотя для WordPress существует огромное количество плагинов для автоматической пометки. Вы должны искать плагин поиска и дать несколько попыток.
источник