В настоящее время я ищу маркированные наборы данных, чтобы обучить модель извлекать именованные объекты из неформального текста (что-то похожее на твиты). Поскольку в документах из моего набора данных часто не хватает заглавных букв и грамматики, я ищу данные вне домена, которые немного более «неформальны», чем новостная статья и записи в журналах, которые многие современные системы распознавания сущностей называют современными. тренировался на.
Любые рекомендации? До сих пор я смог найти только 50k токенов из твиттера, опубликованного здесь .
Ответы:
Насколько я понимаю, это свойства, которые вы ищете в наборе данных:
Вот несколько рекомендаций:
rvest
,scrapeR
, и т.д.) и Python для достижения этой целиисточник
Проверьте это:
Хранилище тестовых доменов для извлечения информации: http://www.isi.edu/info-agents/RISE/repository.html
DBpedia: http://wiki.dbpedia.org/Downloads32 ( зеркало )
Ссылка обновлена:
http://www.isi.edu/integration/RISE/
https://github.com/dbpedia/extraction-framework/wiki/The-DBpedia-Data-Set
источник
Некоторые из источников, которые я использовал:
Я думаю, что эти наборы данных будут очень полезны для вашей задачи
источник