Источники списка слов

11

Я ищу источник существительных, наречий, прилагательных и глаголов на нескольких языках.

Я бы хотел, чтобы списки уже были разделены, и не нужно было проходить через OED (и неанглийские эквиваленты) вручную, создавая указанные списки.

Меня не особо волнуют определения, и я понимаю, что некоторые слова могут состоять из нескольких частей речи - это нормально - слова типа «многие» могут быть существительными или прилагательными и могут появляться в обоих списках.

Кто-нибудь здесь знает о таком источнике? Если нет, то может ли кто-нибудь указать мне правильное направление?

Я в порядке с форматом, являющимся любым из следующего (или подобный, если у людей есть идеи):

  • CSV: <word>, noun (y/n), verb (y/n), adverb (y/n), adjective (y/n)
  • текстовые файлы, такие как "существительные", "глаголы" и т. д.
  • MySQL таблица
  • и т.д
кроличий садок
источник

Ответы:

8

Я использовал WordNet из Принстонского университета для некоторых проектов. Это лексическая база данных на английском языке. Global WordNet является расширением проекта, пытающегося сделать то же самое для всех языков.

Вы также можете быть заинтересованы в связанных проектах на http://wordnet.princeton.edu/wordnet/related-projects/

teknikqa
источник
1
WordNet - это путь. Все ведущие исследователи используют это.
Ритвик Бозе
4

Это может не помочь вообще, я не знаю. Но MediaWiki имеет API для отображения всех страниц, относящихся к определенной категории. Вы можете попробовать использовать его на Wiktionary.org.

Примечания:

  • Каждый запрос возвращает только 500 результатов. Однако в конце он также указывает параметр, который будет использоваться в другом запросе для получения следующих 500 результатов.
  • Включает в себя все в указанной категории, даже другие подкатегории.
  • Результаты, кажется, в алфавитном порядке, хотя все, начинающееся с заглавной буквы, предшествует чему-либо в нижнем регистре.

Примеры:

Надеюсь, это поможет, это то, что я мог придумать.

Мэтт Блейн
источник
1

Я буду вторым предложением @ teknikqa о wordnet, но я бы посоветовал вам проверить их API;

STORYTIME : у меня был курс ИИ, в котором была часть анализа языка; Я использовал perl API Wordnet для автоматического поиска трех верхних типов определений и для классификации фраз по сравнению с почти в реальном времени END OF STORYTIME

Есть множество API для множества языков

К вашему сведению: проект получил A +

Эндрю Болстер
источник