Есть ли какие-либо API для сканирования рефератов?

13

Если у меня есть очень длинный список названий статей, как я могу получить эти документы из Интернета или из какой-либо базы данных?

Названия статей похожи на «Оценка полезности в веб-майнинге для сферы общественного здравоохранения».

Кто-нибудь знает API, который может дать мне решение? Я попытался отсканировать Google ученый, однако Google заблокировал мой сканер.

Алекс Гао
источник
2
Я сомневаюсь, что есть какой-то общий API для этого. Вы можете попробовать сканировать различные сервисы, такие как Academia.edu, сайты издателей и так далее. Тем не менее было бы проще сначала создать локальную базу данных документов, а затем поэкспериментировать с извлечением тезисов.
Войцех Вальчак
Спасибо за Ваш ответ! Я уже создал локальную базу данных для этого. Проблема сканирования с разных сервисов заключается в том, что мне нужно создать правила разбора для каждого сайта.
Алекс Гао
Итак, как насчет преобразования PDF-файлов в TXT и последующего извлечения рефератов с помощью регулярных выражений?
Войцех Валчак
Спасибо! Однако в контракте говорится, что массовая загрузка документов запрещена. Это создает некоторую головную боль.
Алекс Гао
2
Я думаю, что эта ссылка для ответа переполнения стека дает лучший ответ, который я могу получить. Может быть, люди, которые сталкиваются с этой проблемой, могли бы также взглянуть на эту страницу.
Алекс Гао

Ответы:

8

Ищите это на:

Если вы получите одно точное совпадение по названию, вы, вероятно, нашли нужную статью и можете заполнить оставшуюся информацию оттуда. Оба дают вам ссылки для скачивания и вывод в стиле bibtex. Однако для получения идеальных метаданных вы, вероятно, захотите скачать, проанализировать pdf (если есть) и найти идентификатор в стиле DOI.

Пожалуйста, будьте добры и ограничьте количество запросов, если вы делаете это.

Алекс я
источник
5

У arXiv есть API и массовая загрузка, но если вам нужно что-то для платных журналов, вам будет сложно найти такой платный индексатор, как pubmed, elsevier или тому подобное.

cwharland
источник
1
большое спасибо. Однако arXiv предоставляет документы, которые мне нужны.
Алекс Гао