Как получить базу данных английских слов? [закрыто]

148

Мне нужна база данных каждого действительного слова на английском языке. Я проверил /usr/share/dict/wordsфайл, он содержит менее 100 тыс. Слов. В Википедии сказано, что в английском есть 475 тысяч слов. Где я могу получить полный список (американское правописание)?

Кроме того, существует ли единый веб-сайт, который также выдает слова для других языков, включая азиатские и европейские?

Изменить: Забыл добавить, мне не нужны имена и т. Д., Только действительные английские слова.

Costique
источник
9
У меня /usr/share/dict/words479829 слов, так что, возможно, здесь есть некоторые варианты (и может подойти для других).
marshall.ward
4
wc -l /usr/share/dict/wordsна Mac - 235 886 слов (июль 2014 г. - OSX Mavericks 10.9.4)
нельсоник
2
Лучший список, который я нашел: raw.githubusercontent.com/docdis/english-words/master/… . Спасибо @nelsonic.
james.garriss
1
Вы можете получить список здесь marcoagpinto.cidadevirtual.pt/proofingtoolgui.html .. поищите ссылку WORDLIST справа
kofifus

Ответы:

75

База данных WordNet может быть полезна. Однажды я работал над дополнением Firefox, которое имеет дело со словами и всевозможными простыми и сложными ассоциациями между ними и прочим. Похоже, WordNet будет очень полезен для вас.

Вот это в формате MySQL . И этот (веб-архивная ссылка) использует данные Wordnet v3.0, а не более старые данные Wordnet 2.0.

user266803
источник
у них тоже есть загружаемый список?
1
Да, они дают вам возможность загружать свои базы данных во многих форматах - CSV, MySQL Database и т. Д. И даже имеют API, которые можно использовать через .Net, Java и т. Д. Это страница загрузки - wordnet.princeton. .edu / wordnet / download
user266803
Я лично не скачал его, но он был там готов, когда я начал кодировать. Так что я не знаю, какие файлы будут там, в какой загрузке. Я просто знаю, что вы можете скачать в разных форматах. Если вы можете сказать мне, в каком формате вы хотите, я могу помочь.
user266803
Похоже, действительно очень интересный проект.
Вим Холлебрандсе
36

Вы можете найти то, что вам нужно на infochimps.org .

У них есть список из 350 000 простых (то есть не составных) слов, доступных для бесплатного скачивания.

Список слов - 350 000+ простых английских слов

Что касается других языков, вы можете поиграть в Викисловарь. Вот ссылка на все резервные копии базы данных - информация не организована так, но если у них есть язык, вы можете загрузить данные в формате SQL.

danben
источник
6
Ссылка для скачивания изменилась - infochimps.com/datasets/…
Крис Рей
36
К сожалению, файл infochimps - это .xls (файл excel со словами, разбитыми на 6 листов!) ... Я извлек все 354986 слов в текстовый файл : github.com/nelsonic/english-words
nelsonic
@nelsonic большое спасибо, ссылка infochimps - 404
1
@ChrisRae обе ссылки не работают
garg10may
5
Похоже, что они включают слова с орфографическими ошибками, как, например, технология - вероятно, потому что они собирают все, что появляется в Интернете. поэтому он хорош для взлома / проверки пароля, но не подходит для приложений, которым требуются настоящие слова (например, проверка орфографии и т. д.).
максимум
13

Я не вижу упомянутого здесь http://wordlist.sourceforge.net/ , но именно с этого я бы начал, если бы искал что-то подобное (и я был, когда наткнулся на этот вопрос).

Если вы не можете найти то, что вы хотите, и то, что вы хотите, это список английских слов, то вам, вероятно, следует потратить дополнительное время на описание того, как распознать, что именно вы хотите.

RDM
источник
1
Я надеялся, что эти более широкие списки будут содержать слова с пунктуацией, такие как «C ++» или «C #», но не смогли их найти. Так что, если это то, что вам нужно, вы можете короткое замыкание, вы можете пропустить это (и более узкие списки в других ответах).
hob
9

Нет такого понятия, как «полный» список. Разные люди имеют разные способы измерения - например, они могут включать сленг, неологизмы, фразы из нескольких слов, оскорбительные термины, иностранные слова, спряжения глаголов и так далее. Некоторые люди даже насчитали миллион слов ! Таким образом, вам придется решить, что вы хотите в списке слов.

JW.
источник
3
Спасибо за эту ссылку. Очень поучительно читать о том, сколько слов в английском языке, и тщетность попыток достичь их окончательного подсчета. Для более краткого и актуального прочтения есть также: en.oxforddictionaries.com/explore/language-questions/… .
Прометей
4

Вы можете проверить *spell en-GB словарь, используемый Mozilla, OpenOffice, множеством других программ.

mloskot
источник
ссылка на mozilla ru-gb.pyxidium.co.uk/dictionary/en_GB.zip говорит, что сервер не найден, есть обновление? спасибо
@AMB Спасибо, я обновил ссылку, чтобы указать на альтернативный источник словаря на extensions.openoffice.org/en/project/…
mloskot
И теперь новая ссылка - 404, @mloskot.
james.garriss
@ james.garriss Боюсь, что весь сайт extensions.openoffice.org не работает.
Млоскот
3

Вы не сказали, для чего вам нужен этот список. Если что-то используется в качестве черного списка для проверки паролей, достаточно Cracklib может быть полезен для вас. Он содержит более 1,5 млн слов.

Бенджамин Банье
источник
1
нет, не для черного списка. Я делаю какую-то игру в слова / граф.
Здесь много «ненужных слов», однако я все равно очень благодарен, что вы разместили это здесь - это прекрасно, когда вы ищете конкретные слова, которых нет в других словарях (например, пожарная машина)
kangalioo