Где я могу получить разнообразный образец текста? [закрыто]

14

Я пытаюсь собрать статистику по последовательности символов или слов, используемых на английском языке, для использования в программном проекте.

Где я могу взять большое количество (несколько ГБ было бы неплохо) английского простого текста, охватывающего различные темы?

JSideris
источник
3
Как-то я чувствую, что вам особенно понравятся эти иллюстрации
Яннис
@Yannis Rizos Это потрясающе: D.
JSideris
@ Яннис Ризос о, они симпатичные ...
sevenseacat
@YannisRizos Это было закрыто несколько лет назад. Наконец-то я приступил к редактированию вопроса, чтобы он был более конкретным и лучшим для формата QA. Могу ли я получить его незамеченным сейчас? (Вы единственный человек в этой теме, который все еще является модератором).
JSideris

Ответы:

19

Вы можете использовать дампы данных Википедии . Дамп данных XML для английской Википедии , которая включает в себя текущие изменения , составляет лишь около 31 Гб, так что я бы сказал , что это будет хорошим началом для вашего исследования. Дамп данных довольно большой, поэтому вы должны рассмотреть возможность извлечения текстов из XML с помощью SAX-парсера. WikiXMLJ - удобный API Java, настроенный для Википедии.

И тогда, конечно, всегда есть дампы данных Stack Exchange . Последняя одна не включает в себя все государственные без бета - Stack Exchange , сайты & соответствующие сайты Мета вплоть до сентября 2011 года Но, естественно сообщения Стек Обмен сосредоточены на объеме каждого сайта, так что, вероятно , не так обобщена , как вы хотите. Мета-посты немного более общие, поэтому вы можете рассмотреть их в дополнение к Википедии.

Я не думаю, что вы найдете что-то лучше, особенно в текстовом формате. Несколько открытых наборов данных доступны через Data Hub , но я думаю, что дамп данных английской Википедии очень близок к тому, что вы ищете.

Яннис
источник
1
это некоторые классные ресурсы.
Hanzolo
Стековые, хотя и обширные, будут охватывать очень узкое поле дискурса (по необходимости), поэтому они могут не очень хорошо обобщать.
января
Боже мой, эти файлы огромны! Как только я найду способ открыть их и отфильтровать все xml-хрени, это должно прекрасно работать. Благодарность!
JSideris
1
@Bizorke Рад, что я мог помочь. Когда вы закончите, вы должны обновить вопрос со ссылкой на ваше исследование.
Яннис
5

У Google есть коллекция наборов данных, которые они используют для определения вероятностей n-грамм. Изучение их биграмных (2-граммовых) наборов данных должно дать вам хорошую картину. Есть много других корпораций, для которых эти анализы уже были сделаны.

jonsca
источник
3
Я просто писал то же самое.
jcmeloni
@jcmeloni Великие умы!
января
5

Проект Гутенберг имеет большой корпус текстов на английском языке, уже в текстовом виде.

Project Gutenberg предлагает более 42 000 бесплатных электронных книг: выбирайте среди бесплатных книг epub, бесплатных книг kindle, загружайте их или читайте в Интернете.

Мы предлагаем высококачественные электронные книги: все наши электронные книги ранее были опубликованы добросовестными издателями. Мы оцифровали и усердно корректировали их с помощью тысяч добровольцев ...

Майкл Кон
источник
1
Я думал о Project Gutenberg, но я не смог найти концентрированный дамп данных. А для включения книги срок ее действия должен истечь, и, как правило, это означает, что с момента первой публикации книги прошло 50–70 лет. Поэтому я не думаю, что как набор данных Project Gutenberg является представителем языка, используемого сегодня.
Яннис
1
Если вы хотите что-то «представительное для языка, который используется сегодня», попробуйте комментарии на YouTube. Грустно, но правда.
Йорг Миттаг
@ JörgWMittag - ой. Что меня действительно беспокоит, так это то, как ты не ошибаешься.
Майкл Кохне
@ Jörg W Mittag Это возможно, но тогда некоторые слова, специфичные для youtube, будут встречаться очень часто, например: YOU UT TU UB BE или еще хуже: FA AK KE AN ND GA AY
JSideris
1

Для статистики, вы, вероятно, смотрите "Частота биграмм на английском языке". Посмотрите на: Wiki-Bigram Stats

Что касается поиска большого текста, обратите внимание, что частота будет смещена в зависимости от типа текста. Например, если вы проанализируете адреса, вы получите разные результаты от анализа газетных рассказов. Если вы просто хотите протестировать, вы можете использовать PDF-файл любой книги (лучше не математика, не программирование или медицинская книга) и преобразовать его в текст, а затем запустить свои тесты. Вы также можете конвертировать газетные веб-страницы в текст и работать над ними.

Без шансов
источник
2
Да, я понимаю, что результаты будут предвзятыми. Мне нужен ресурс, который охватывает как можно больше предметов. Я подумывал о том, чтобы скачать кучу электронных книг, главная проблема - преобразовать их в текст. Но не мешало бы посмотреть статистику биграмм (я не знал, как называются двухбуквенные комбинации).
JSideris
Спасибо за ваш комментарий. Вы можете конвертировать PDF в текст, используя Файл -> Сохранить как текст в ADOBE PDF Reader. Эта ссылка также может иметь значение: data-compression.com/english.html
NoChance
@EmmadKareem OP запрашивает несколько ГБ текста. Вы серьезно предлагаете ему использовать Adobe Reader для извлечения текста из PDF-файлов?
Яннис
@YannisRizos, я не заметил, что несколько ГБ было обязательным требованием. Если это так, есть лучшие инструменты, которые могут быть использованы для этой цели. Спасибо за указание на это.
NoChance