Я пытаюсь собрать статистику по последовательности символов или слов, используемых на английском языке, для использования в программном проекте.
Где я могу взять большое количество (несколько ГБ было бы неплохо) английского простого текста, охватывающего различные темы?
research
statistics
JSideris
источник
источник
Ответы:
Вы можете использовать дампы данных Википедии . Дамп данных XML для английской Википедии , которая включает в себя текущие изменения , составляет лишь около 31 Гб, так что я бы сказал , что это будет хорошим началом для вашего исследования. Дамп данных довольно большой, поэтому вы должны рассмотреть возможность извлечения текстов из XML с помощью SAX-парсера. WikiXMLJ - удобный API Java, настроенный для Википедии.
И тогда, конечно, всегда есть дампы данных Stack Exchange . Последняя одна не включает в себя все государственные без бета - Stack Exchange , сайты & соответствующие сайты Мета вплоть до сентября 2011 года Но, естественно сообщения Стек Обмен сосредоточены на объеме каждого сайта, так что, вероятно , не так обобщена , как вы хотите. Мета-посты немного более общие, поэтому вы можете рассмотреть их в дополнение к Википедии.
Я не думаю, что вы найдете что-то лучше, особенно в текстовом формате. Несколько открытых наборов данных доступны через Data Hub , но я думаю, что дамп данных английской Википедии очень близок к тому, что вы ищете.
источник
У Google есть коллекция наборов данных, которые они используют для определения вероятностей n-грамм. Изучение их биграмных (2-граммовых) наборов данных должно дать вам хорошую картину. Есть много других корпораций, для которых эти анализы уже были сделаны.
источник
Проект Гутенберг имеет большой корпус текстов на английском языке, уже в текстовом виде.
источник
Для статистики, вы, вероятно, смотрите "Частота биграмм на английском языке". Посмотрите на: Wiki-Bigram Stats
Что касается поиска большого текста, обратите внимание, что частота будет смещена в зависимости от типа текста. Например, если вы проанализируете адреса, вы получите разные результаты от анализа газетных рассказов. Если вы просто хотите протестировать, вы можете использовать PDF-файл любой книги (лучше не математика, не программирование или медицинская книга) и преобразовать его в текст, а затем запустить свои тесты. Вы также можете конвертировать газетные веб-страницы в текст и работать над ними.
источник