Где найти большой текстовый корпус? [закрыто]

16

Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы.

Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки.

Закрыто 6 лет назад .

Я ищу большой (> 1000) текстовый корпус для загрузки. Желательно с мировыми новостями или какими-то репортажами . Я нашел только один с патентами. Какие-либо предложения?

dataset Dimitar Vouldjeff
источник

Эта тема, кажется, не по теме. См. Meta.stats.stackexchange.com/questions/1032/… .

whuber

Этот вопрос, по-видимому, не по теме, потому что речь идет о поиске набора данных, а не о статистическом анализе

Питер Флом - Восстановить Монику

2

Ну, это неловко, потому что эти вопросы и ответы действительно полезны.

Сайд-шоу Боб

@guaka, пожалуйста, не ударяйте такие старые сообщения за такие незначительные правки, особенно сообщение, которое закрыто. Это правда, что наше предпочтение стиля не в том, чтобы иметь «спасибо», а в чем-то таком незначительном, мы бы просто оставили это.

gung - Восстановить Монику

9

Тебе не подходят тексты Wikileaks?

Adamo
источник

Но как я мог скачать их в .txt

Димитар Вулджефф

6

А как насчет викиновостей ? Вот последний дамп базы данных, который я смог найти: http://dumps.wikimedia.org/enwikinews/20111120/

Возможно, вам нужна версия «Все страницы, только текущие версии».

mogron
источник

Это больше не работает.

vy32

ссылка на дамп больше не работает. набор данных по регионам мал и устарел

HappyCoding

6

Reuters Text Corpus является классикой в этой области, и можно найти здесь

richiemorrisroe
источник

Это не самый интересный (или разнообразный) корпус. Лицензия также ограничительна относительно Wikileaks (общедоступные документы США) или викиновостей.

Аридделл

@ariddell Я согласен, но он обычно используется во вводных примерах НЛП, и он достаточно большой, чтобы быть полезным в обучении, но достаточно мал, чтобы его можно было проанализировать на хорошем ноутбуке.

richiemorrisroe

3

http://endb-consolidated.aihit.com/datasets.htm содержит 10 000 компаний с текстовыми описаниями

Юрий
источник

в настоящее время устарела

Quonux

1

Если свежесть не проблема, вы можете попробовать

http://www.infochimps.com/datasets/20-newsgroups-dataset-de-duped-version

и есть много других подобных наборов данных в infochimp в зависимости от вашего бюджета.

С уважением, Энди.

drhanlau
источник

Это больше не работает

vy32

1

Если вам нужны предварительно вычисленные n-граммы, вы можете попробовать архив книг Google:

http://books.google.com/ngrams/datasets

TDC
источник

как это можно использовать?

HappyCoding

Где найти большой текстовый корпус? [закрыто]

Ответы: