Существует ли какое-либо программное обеспечение (или псевдокод), которое может автоматически сканировать фрагмент текста (либо вставленный в инструмент, либо считывать из .doc / .pdf) и идентифицировать данные цитирования с использованием стандартных форматов? Затем данные будут разделены на составляющие поля и экспортированы в XML, CSV или какой-либо другой формат структурированных данных. Я посмотрел на cb2Bib, но он смог извлечь год только из ссылок в стиле Гарварда, что недостаточно.
18
Ответы:
Взгляните на этот список анализаторов цитирования, которые могут генерировать XML из входного текста:
http://freecite.library.brown.edu
http://paracite.eprints.org
http://aye.comp.nus.edu.sg/parsCit (в режиме обслуживания по состоянию на 1 августа 2012 г.)
http: // opcit.eprints.org
http://search.cpan.org/~mjewell/Biblio-Citation-Parser-1.10
С freecite вы можете использовать
curl
команду для отправки цитат следующим образом (в PHP):источник
На данный момент (2017) наиболее активным проектом с открытым исходным кодом, реализующим это, является Anystyle Parser (последняя версия 07-2016). Он может быть использован через веб-интерфейс, API или загружен как RubyGem.
Они прямо упоминают на своем веб-сайте, что реализация основана на ParsCit (последняя версия 2013?) И FreeCite (последняя фиксация 2009).
Также сформируйте их веб-сайт:
Это действительно классная функция, которая делает эту реализацию наиболее интересной (imho). Обучение кажется довольно простым, как объясняется в документации по API . Вы просто предоставляете некоторые исправленные вручную результаты и запускаете
Anystyle.parser.train
команду. Я не уверен, что ParsCit и FreeCite также поддерживают это, но если они этого не делают, мне кажется, что это огромная разница в возможностях.источник
Попробуйте такой инструмент, как Regex Buddy или Expresso .
Если вы не программист, регулярные выражения могут быть немного пугающими, но на самом деле они не так уж и сложны, особенно с помощью достойного инструмента, подобного одному из приведенных выше.
Вот пример использования регулярных выражений для извлечения цитат:
Регулярное выражение синтаксического анализа цитирования
источник
Менделей должен быть в состоянии сделать это. Он может импортировать PDF-файлы, а затем экспортировать метаданные в BibTeX, RIS и EndNote XML. Это бесплатно для скачивания и является кроссплатформенным.
Изменить: я проверил это на нескольких документах. Импорт PDF, кажется, хорошо работает для ссылок, которые правильно отформатированы. Для документа, который я создал с помощью LaTeX, все ссылки с автором в форме «Смит, Дж.» или "Дж. Смит" и т. д. были импортированы в порядке. Если автором является компания (одним словом), или ссылка неполная, она также не работает. Извлеченные ссылки могут быть легко отредактированы и экспортированы в BibTeX и т. Д.
источник
Я видел программу Westlaw, которая делает это для юридических ссылок, но это, вероятно, не то, что вы ищете. Справочный менеджер может сделать что-то подобное для академических форматов, но я никогда не использовал это.
источник
Попробуйте http://www.crossref.org/guestquery/#stqsearch
Он способен автоматически анализировать ваш ссылочный текст и предлагает ссылку на онлайн-статью.
источник
Zotero - это плагин для Firefox, который делает это для веб-контента. Не уверен, что есть аналогичный инструмент для документов / PDF
источник
Вероятно, это больше относится к комментарию к @Abhinav, но zotero определенно обрабатывает только структурированные данные, как вы можете найти здесь:
http://www.zotero.org/support/getting_stuff_into_your_library#importing_records_from_other_reference_tools
Интересным хаком может быть попытка написать программу, которая использует каждую цитату в качестве поискового запроса в вашей любимой базе данных, а затем использует что-то вроде zotero для генерации справочной информации. Вы также можете загрузить структурированную информацию из сервисов, таких как citeUlike. Дайте мне знать, если вы закончите что-то подобное! (положите его на github, если вы делаете;).
источник