Я ищу большой (> 1000) текстовый корпус для загрузки. Желательно с мировыми новостями или какими-то репортажами . Я нашел только один с патентами. Какие-либо предложения?
Этот вопрос, по-видимому, не по теме, потому что речь идет о поиске набора данных, а не о статистическом анализе
Питер Флом - Восстановить Монику
2
Ну, это неловко, потому что эти вопросы и ответы действительно полезны.
Сайд-шоу Боб
@guaka, пожалуйста, не ударяйте такие старые сообщения за такие незначительные правки, особенно сообщение, которое закрыто. Это правда, что наше предпочтение стиля не в том, чтобы иметь «спасибо», а в чем-то таком незначительном, мы бы просто оставили это.
Это не самый интересный (или разнообразный) корпус. Лицензия также ограничительна относительно Wikileaks (общедоступные документы США) или викиновостей.
Аридделл
@ariddell Я согласен, но он обычно используется во вводных примерах НЛП, и он достаточно большой, чтобы быть полезным в обучении, но достаточно мал, чтобы его можно было проанализировать на хорошем ноутбуке.
Ответы:
Тебе не подходят тексты Wikileaks?
источник
А как насчет викиновостей ? Вот последний дамп базы данных, который я смог найти: http://dumps.wikimedia.org/enwikinews/20111120/
Возможно, вам нужна версия «Все страницы, только текущие версии».
источник
Reuters Text Corpus является классикой в этой области, и можно найти здесь
источник
http://endb-consolidated.aihit.com/datasets.htm содержит 10 000 компаний с текстовыми описаниями
источник
Если свежесть не проблема, вы можете попробовать
http://www.infochimps.com/datasets/20-newsgroups-dataset-de-duped-version
и есть много других подобных наборов данных в infochimp в зависимости от вашего бюджета.
С уважением, Энди.
источник
Если вам нужны предварительно вычисленные n-граммы, вы можете попробовать архив книг Google:
http://books.google.com/ngrams/datasets
источник