Я ищу источник существительных, наречий, прилагательных и глаголов на нескольких языках.
Я бы хотел, чтобы списки уже были разделены, и не нужно было проходить через OED (и неанглийские эквиваленты) вручную, создавая указанные списки.
Меня не особо волнуют определения, и я понимаю, что некоторые слова могут состоять из нескольких частей речи - это нормально - слова типа «многие» могут быть существительными или прилагательными и могут появляться в обоих списках.
Кто-нибудь здесь знает о таком источнике? Если нет, то может ли кто-нибудь указать мне правильное направление?
Я в порядке с форматом, являющимся любым из следующего (или подобный, если у людей есть идеи):
- CSV:
<word>, noun (y/n), verb (y/n), adverb (y/n), adjective (y/n)
- текстовые файлы, такие как "существительные", "глаголы" и т. д.
- MySQL таблица
- и т.д
Ответы:
Я использовал WordNet из Принстонского университета для некоторых проектов. Это лексическая база данных на английском языке. Global WordNet является расширением проекта, пытающегося сделать то же самое для всех языков.
Вы также можете быть заинтересованы в связанных проектах на http://wordnet.princeton.edu/wordnet/related-projects/
источник
Это может не помочь вообще, я не знаю. Но MediaWiki имеет API для отображения всех страниц, относящихся к определенной категории. Вы можете попробовать использовать его на Wiktionary.org.
Примечания:
Примеры:
Надеюсь, это поможет, это то, что я мог придумать.
источник
Я буду вторым предложением @ teknikqa о wordnet, но я бы посоветовал вам проверить их API;
STORYTIME : у меня был курс ИИ, в котором была часть анализа языка; Я использовал perl API Wordnet для автоматического поиска трех верхних типов определений и для классификации фраз по сравнению с почти в реальном времени END OF STORYTIME
Есть множество API для множества языков
К вашему сведению: проект получил A +
источник