Я потратил три дня на то, чтобы поболтать с tm
читателем черновика статьи от друга, где он исследовал текстовый корпус с помощью UCINET, показывая текстовые облака, двухрежимные сетевые графики и разложение по одному значению (с графикой, используя Stata). Я столкнулся с большим количеством проблем: в Mac OS X есть проблемы с Java, стоящие за такими библиотеками, как Snowball (stemming) или Rgraphviz (graphs).
Может кто - то отметить не пакеты - я посмотрел на tm
, wordfish
и wordscores
, и знать о NLTK - но исследование, если это возможно с кодом, на текстовые данные, которые успешно использует tm
или что - то еще , чтобы анализировать данные , такие как парламентские дебаты и законодательные документы?Я не могу найти много по этому вопросу, и даже меньше кода, чтобы учиться.
Мой собственный проект - это двухмесячные парламентские дебаты, в которых данные переменных представлены в файле CSV: парламентская сессия, спикер, парламентская группа, текст устного выступления. Я ищу расхождения между ораторами и особенно между парламентскими группами в использовании редких и менее редких терминов, например, «разговоры о безопасности» против разговоров о «гражданских свободах».
источник
Ответы:
Диссертация на соискание ученой степени доктора Инго Фейнерер из Австрии написана на английском языке. Главы 7-10 этого документа содержат приложения пакета tm, с возрастающей сложностью.
http://epub.wu.ac.at/1923/
Прочитайте всю обложку документа к обложке. Обратите внимание, однако, что документ был написан в 2008 году, и с тех пор было несколько изменений API, например, в диссертации PhD упоминается функция
tmMap()
, которая была переименована вtm_map()
. Таким образом, примеры кода не будут работать как есть, вы не можете использовать метод «вырезать и вставить», чтобы попробовать их.Вы также можете перейти к
http://tm.r-forge.r-project.org/users.html
и поищите на этой странице фразу «написал статью», и вы найдете много ссылок. Я прочитал только одну из статей, "автоматическое определение темы в текстах песен". Довольно интересно и забавно.
источник
Хорошее место для начала может быть список публикаций на веб-сайте
tm
, таких как этот:Список литературы в конце каждой из этих публикаций включает успешные применения
tm
, что вы, похоже, ищете. Их много - особенно если вы потом будете следовать ссылкам из ссылок.Например, вот тот, который может иметь отношение:
Удачи.
источник
tm
с моей стороны. Тем не менее, большое спасибо :)