Где найти большой текстовый корпус? [закрыто]

16

Я ищу большой (> 1000) текстовый корпус для загрузки. Желательно с мировыми новостями или какими-то репортажами . Я нашел только один с патентами. Какие-либо предложения?

Dimitar Vouldjeff
источник
Эта тема, кажется, не по теме. См. Meta.stats.stackexchange.com/questions/1032/… .
whuber
Этот вопрос, по-видимому, не по теме, потому что речь идет о поиске набора данных, а не о статистическом анализе
Питер Флом - Восстановить Монику
2
Ну, это неловко, потому что эти вопросы и ответы действительно полезны.
Сайд-шоу Боб
@guaka, пожалуйста, не ударяйте такие старые сообщения за такие незначительные правки, особенно сообщение, которое закрыто. Это правда, что наше предпочтение стиля не в том, чтобы иметь «спасибо», а в чем-то таком незначительном, мы бы просто оставили это.
gung - Восстановить Монику

Ответы:

9

Тебе не подходят тексты Wikileaks?

Adamo
источник
Но как я мог скачать их в .txt
Димитар Вулджефф
6

А как насчет викиновостей ? Вот последний дамп базы данных, который я смог найти: http://dumps.wikimedia.org/enwikinews/20111120/

Возможно, вам нужна версия «Все страницы, только текущие версии».

mogron
источник
Это больше не работает.
vy32
ссылка на дамп больше не работает. набор данных по регионам мал и устарел
HappyCoding
6

Reuters Text Corpus является классикой в ​​этой области, и можно найти здесь

richiemorrisroe
источник
Это не самый интересный (или разнообразный) корпус. Лицензия также ограничительна относительно Wikileaks (общедоступные документы США) или викиновостей.
Аридделл
@ariddell Я согласен, но он обычно используется во вводных примерах НЛП, и он достаточно большой, чтобы быть полезным в обучении, но достаточно мал, чтобы его можно было проанализировать на хорошем ноутбуке.
richiemorrisroe
1

Если вам нужны предварительно вычисленные n-граммы, вы можете попробовать архив книг Google:

http://books.google.com/ngrams/datasets

TDC
источник
как это можно использовать?
HappyCoding