Набор данных для распознавания именованных объектов в неформальном тексте

18

В настоящее время я ищу маркированные наборы данных, чтобы обучить модель извлекать именованные объекты из неформального текста (что-то похожее на твиты). Поскольку в документах из моего набора данных часто не хватает заглавных букв и грамматики, я ищу данные вне домена, которые немного более «неформальны», чем новостная статья и записи в журналах, которые многие современные системы распознавания сущностей называют современными. тренировался на.

Любые рекомендации? До сих пор я смог найти только 50k токенов из твиттера, опубликованного здесь .

Мэдисон Мэй
источник
2
Рекомендую спросить на opendata.stackexchange.com
Air
@ Мэдисон май. Вы нашли набор данных? Я ищу что-то подобное. Благодарю.
ахоффер
Я должен был обойтись без твиттера из У. Вашингтона (ссылка на оригинал).
Мэдисон, май
есть какой-нибудь связанный хороший аннотированный английский корпус?
Ачьюта нанда саху

Ответы:

6

Насколько я понимаю, это свойства, которые вы ищете в наборе данных:

  1. Текстовые данные
  2. Это должно быть неформально, то есть иметь опечатки, сленг, и в основном что-то не профессионально отредактированное
  3. Что-то иное, чем Twitter (я не виню вас, Twitter - полезный, но в то же время чрезмерно используемый пример источника данных в текстовом майнинге)

Вот несколько рекомендаций:

  1. Электронные письма от корпуса SpamAssassin - обратите внимание, что доступны как наборы «ветчина» (не спам), так и наборы данных спама
  2. набор данных microblogPCU из UCI, который представляет собой данные, извлеченные из микроблогов пользователей Sina Weibo. Обратите внимание, что необработанные текстовые данные представляют собой смесь китайского и английского языков (можно выполнить машинный перевод китайского языка, отфильтровать только английский или использовать его). как есть)
  3. Amazon Commerce рассматривает набор данных от UCI
  4. В наборе данных bag-o-words попробуйте использовать электронные письма Enron
  5. Набор данных двадцати групп новостей
  6. Это хорошая коллекция смс спама
  7. Вы всегда можете очистить (извлечь) свои собственные текстовые данные из Интернета; Я не уверен , какой язык или статистический пакет вы используете, но пакеты XPath на основе доступны в R ( rvest, scrapeR, и т.д.) и Python для достижения этой цели
Hack-R,
источник
1
Есть ли какие-либо из этих наборов данных с именованными объектами? Я считаю, что это то, что искал OP.
мистер Фил
3

Проверьте это:

Хранилище тестовых доменов для извлечения информации: http://www.isi.edu/info-agents/RISE/repository.html

DBpedia: http://wiki.dbpedia.org/Downloads32 ( зеркало )

Ссылка обновлена:

http://www.isi.edu/integration/RISE/

https://github.com/dbpedia/extraction-framework/wiki/The-DBpedia-Data-Set

Sreejithc321
источник
1
Пожалуйста, обновите эти ссылки, так как ни одна из них больше не работает.
мистер Фил
0

Некоторые из источников, которые я использовал:

Я думаю, что эти наборы данных будут очень полезны для вашей задачи

Гьян Ранджан
источник