Вдохновленный этим вопросом , мне интересно, была ли проделана какая-либо работа над тематическими моделями для больших коллекций чрезвычайно коротких текстов. Моя интуиция заключается в том, что Twitter должен быть естественным источником вдохновения для таких моделей. Однако, из-за некоторых ограниченных экспериментов, похоже, что стандартные тематические модели (LDA и т. Д.) Довольно плохо работают с такими данными.
Кто-нибудь знает о работе, проделанной в этой области? В этой статье рассказывается о применении LDA в Twitter, но меня действительно интересует, есть ли другие алгоритмы, которые работают лучше в контексте коротких документов.
references
text-mining
topic-models
natural-language
Мартин О'Лири
источник
источник
Ответы:
Это поздний ответ, но он может быть полезен для других людей, ищущих соответствующие исследования и инструменты для решения этой проблемы:
Вейвей Го из Колумбии реализовал код для моделирования коротких текстовых тем. Он описал реализацию в статье «Моделирование предложений в скрытом пространстве» ( http://aclweb.org/anthology-new/P/P12/P12-1091v2.pdf ), а код доступен здесь: http: // www .cs.columbia.edu / ~ Вэйвэй / code.html
Хотя это не тематическое моделирование, если у вас есть задача классификации, включающая короткие фрагменты текста, вы можете использовать LibShortText. Из описания их веб-сайта
«LibShortText - это инструмент с открытым исходным кодом для классификации и анализа коротких текстов. Он может обрабатывать, например, заголовки, вопросы, предложения и короткие сообщения ...»
http://www.csie.ntu.edu.tw/~cjlin/libshorttext/
источник
Хотя я не очень знаком с его работой, я знаю, что Джейкоб Эйзенштейн проделал работу по анализу текста и графическим моделям в данных Твиттера. В частности, в данной статье описывается применение тематического моделирования в данных Твиттера и микроблогах.
Изменить: на самом деле после прочтения бумаги немного больше, они утверждают:
Так что, возможно, эта статья не очень поможет, но, возможно, другие публикации Эйзенштейна могут привести вас в правильном направлении.
источник
Недавняя статья под названием « Модель предметной темы для короткого текста » (WWW13) достигла определенного прогресса в этой теме, и вот ее код
источник