Где я могу скачать базу английских словарей в текстовом формате? [закрыто]

127

Мне нужно прочитать текстовый файл для слова и вернуть его значение. Любой другой формат файла также будет работать.

Аби
источник
Я написал веб-подборщик для всех известных онлайн-словарей (Оксфорд, Лонгман, Кембридж, Вебстер и Коллинз), вы можете использовать его для создания своего набора данных. github.com/kiasar/Dictionary_crawler
Пейман

Ответы:

62

В рамках проекта Гутенберга размещен Полный английский словарь Вебстера, а также многие другие литературные произведения , являющиеся общественным достоянием. На самом деле похоже, что у них есть несколько версий словаря, размещенных с авторскими правами, разных лет. Тот, который я связал, имеет авторские права 2009 года. Вы можете покопаться на сайте и изучить различные версии словаря Вебстера.

Асаф
источник
1
'09 очищенная стенограмма версии 1913 года, очевидно, OCR не было полностью чистым. Всего на сайте 15 версий.
DragonLord
57

user1247808 имеет хорошую ссылку: wget -c

http://www.androidtech.com/downloads/wordnet20-from-prolog-all-3.zip

Если вам недостаточно слов:

http://dumps.wikimedia.org/enwiktionary/latest/enwiktionary-latest-all-titles-in-ns0.gz (обновленный URL-адрес из предложения Майкла Кропата)

Хотя это имя файла меняется, вы захотите найти последний ... который оказывается просто большим (очень большим) текстовым файлом.

http://dumps.wikimedia.org/enwiktionary/

Orwellophile
источник
спасибо .. за эту ссылку
AndyBoy
Вы всегда можете скачать последний викисловарь с сайта dumps.wikimedia.org/enwiktionary/latest/…
Майкл Кропат
androidtech / wordnet20 находится в формате SQL, а не txt.
DragonLord
1
Обратите внимание: синтаксис wordnet20 имеет устаревший TYPE = * в файле .sql. Запустите, sed -i 's/TYPE=/ENGINE=/g' wordnet20-from-prolog-all-3.sqlчтобы заменить устаревший синтаксис, прежде чем запускать его с версией MySQL 5.0+
Сергей Федоров
нет простого txt файла, содержащего все английские слова?
Nadav B
27

Не знаю, слишком ли поздно, но я подумал, что это поможет кому-то другому.

Я очень хотел такую ​​же ... в конце концов нашел.

Может быть, он не идеален, но для меня он подходит (для моего маленького словарного приложения).

http://www.androidtech.com/downloads/wordnet20-from-prolog-all-3.zip

Это не файл дампа, а файл сценария MYSQL .sql

Слова находятся в таблице WN_SYNSET, а глоссарий / значение - в таблице WN_GLOSS.

user1247808
источник
4
Под какой лицензией это распространяется?
Коул Джонсон
2
Я тоже не уверен, но на androidtech.com/html/downloads.php естьHere are some files related to natural language and chatterbot projects that we are making available to the public
Betlista
7
Пользователи MySQL: операторы создания таблицы используют теперь удаленную опцию TYPE. Запустите это в файле, sed -i 's/TYPE=MyISAM/ENGINE=MyISAM/g' filename.sqlчтобы он
заработал
15

Проверьте, подходят ли эти бесплатные ресурсы вашим потребностям -

mvark
источник
8
FOLDOC (Free On-line Dictionary of Computing), по-видимому, представляет собой словарь только компьютерных терминов / имен. Некоторым это может быть полезно, но это не универсальный словарь, в котором можно найти большинство слов.
Lèse majesté
2
Ссылка на страницу ObjectGraph тоже мертва. Официальные загружаемые версии находятся здесь .
Lèse majesté
@ Lèsemajesté, твоя ссылка теперь тоже мертва
yukashima huksay