Привет, я пишу игру, в которой игрок должен соединить группу букв, чтобы сформировать слова. Что-то вроде книжного червя, но я надеюсь, что оно будет совсем другим.
Суть вопроса в том, что мне нужно построить словарь слов.
Я сделал простую Java-программу, которая сканирует сеть и извлекает слова, но много хорошего смешано с хорошими словами, и его невозможно очистить. Я говорю о 100 000 слов.
Существует ли какой-либо словарь, который можно свободно использовать, или кто-нибудь знает, как его создать?
Благодарность!
Следующий сайт пытается накапливать ссылки на различные открытые словарные проекты. Если я понимаю, что они делают правильно, они предлагают словарные пакеты, которые вы потенциально можете загрузить и прочитать с помощью своего приложения. Надеюсь, это приведет вас в полезном направлении.
Открытые словарные базы данных
источник
Проект Moby - самый большой из известных мне. Это также источник пакета «слова», например, Fedora, по крайней мере, на английском языке.
источник
Вот этот кажется довольно хорошим, хотя я не знаю, по сравнению с другими.
Кажется, в легко разбираемом и читаемом формате тоже.
источник
Недавно я выполнил кое-что, где я вырвал каждое слово из войны и мира, хотя в нем не содержится каждого слова в словаре, у него есть дополнительное преимущество - возможность подсчитать использование слова, чтобы получить представление о распределении использования, вы также найдете сленг слова и имена, однако, хотя они могут быть отфильтрованы довольно просто
источник