Можно ли обобщить английский язык, используя набор правил грамматики?

10

В языках программирования существует набор правил грамматики, которые управляют построением допустимых операторов и выражений. Эти правила помогают в анализе программ, написанных пользователем.

Может ли когда-либо существовать функционально полный набор правил грамматики, которые могут точно анализировать любое утверждение на английском языке (специфично для локали) и которые могут быть реализованы для использования в проектах на основе AI?

Я знаю, что в Интернете доступно множество наборов НЛП, но они не настолько эффективны. Большинство из них обучаются с использованием определенных корпусов, которые иногда не в состоянии вывести некоторые сложные корреляции между различными частями выражения.

Другими словами, я спрашиваю, возможно ли, чтобы компьютер анализировал хорошо подготовленное предложение, написанное на английском языке, как если бы оно было проанализировано взрослым англоговорящим человеком?

РЕДАКТИРОВАТЬ: Если это не может быть представлено с помощью простых правил грамматики, какой тип семантической структуры может быть использован для ее обобщения?

РЕДАКТИРОВАТЬ 2: Эта статья доказывает отсутствие свободы контекста в естественных языках. Я ищу решение, даже если оно слишком сложное.

skrtbhtngr
источник
2
У меня нет ссылок, подтверждающих это, но я думаю, что математически доказано, что вы не можете этого сделать - что понимание английского языка полностью требует контекстных подсказок, которые требуют высокоуровневых семантических рассуждений, которые не могут содержаться в грамматические правила.
antlersoft
Согласно википедии, большинство частей естественных языков не зависят от контекста: en.wikipedia.org/wiki/…
inf3rno

Ответы:

8

Может ли когда-либо существовать функционально полный набор правил грамматики, которые могут точно анализировать любое утверждение на английском языке (специфично для локали) и которые могут быть реализованы для использования в проектах на основе AI?

Разобрать это да, точно скорее всего нет.

Почему ?

В соответствии с моим пониманием того, как мы получаем значение из звуков, существует две взаимодополняющие стратегии:

Правила грамматики: основанная на правилах система для упорядочения слов, чтобы облегчить общение, здесь значение происходит от взаимодействия отдельных звуков и их независимого значения, так что вы можете проанализировать предложение на основе книги правил.

Например, «Это был триумф» : синтаксический анализатор извлекал бы местоимение ( This ) с соответствующим значением (конкретный человек или вещь); глагол ( был ) с соответствующим значением (произошло); ( а ) и здесь мы начнем с некоторых проблем с синтаксическим анализом: что извлечет парсер, существительное или неопределенный артикль? Итак, мы обращаемся к книге правил грамматики и соглашаемся со значением (неопределенная статья, любая из), вам нужно проанализировать следующее слово и обратиться к нему, хотя, но давайте пока затмем это, и наконец ( триумф ) существительное (это также может быть глагол, но благодаря книге правил грамматики мы согласились на существительное со значением: (победа, завоевание), так что в итоге мы имеем (объединяя значения):

Определенная вещь произошла из победы. Достаточно близко, и я примыкаю к ​​нескольким другим правилам, но это не главное, другая стратегия:

Лексический словарь (или лексикон), где слова или звуки связаны с определенным значением. Здесь значение происходит от одного или нескольких слов или звуков как единое целое. Это создает проблему для синтаксического анализатора, поскольку он ничего не должен анализировать.

Например, «Non Plus Ultra». И поэтому анализатор ИИ признает, что эту фразу не нужно анализировать, а вместо этого сопоставить со значением:

Высшая точка или кульминация

Лексические единицы представляют другую проблему в том, что они сами могут быть частью первого примера, и в результате вы получите рекурсию.

возможно ли для компьютера разобрать хорошо подготовленное предложение, написанное на английском, как если бы оно было проанализировано взрослым англоговорящим человеком?

Я полагаю, что это возможно, большинство примеров, которые я видел, эффективно справляются с книгой правил грамматики или частью лексики, но я не знаю о комбинации обоих, но с точки зрения программирования это могло бы произойти.

К сожалению, даже если вы решите эту проблему, ваш ИИ на самом деле не будет понимать вещи в строгом смысле, а скорее представит вам очень сложные синонимы, кроме того, контекст (как упомянуто в комментариях) играет роль в грамматических и лексиконных стратегиях.

Если его нельзя представить с помощью простых правил грамматики, какую семантическую структуру можно использовать для его обобщения?

Смешанный, в котором есть как грамматические правила, так и лексикон, и оба могут изменяться и подвергаться влиянию на основе конкретного контекста и опыта ИИ, а также системы для работы с этими объектами, может быть одним из способов.

Кено
источник
Мой объем английского ограничен формальным использованием. Если на этот раз мы пропустим очень сложные объекты, такие как метафоры или идиомы, достигнет ли определение контекстно-зависимой грамматики цели?
skrtbhtngr
@skrtbhtngr: теоретически, да, это будет подмножество формального языка, хотя контекст все равно будет сложной проблемой.
Кено
Боковой падеж: «Это был Триумф», говорящий о мотоцикле по разным причинам (первый велосипед, сгоревший велосипед). Может быть, мы можем утверждать, что для отличия бренда от существительного требуется верхний регистр.
Тенсибай
Я согласен, что понимание смысла текста является сложной частью. Просто простое предложение: «Петр ходил в кино». содержит много скрытой информации: Питер - мужчина, он, скорее всего, пошел туда, чтобы посмотреть фильм со своей подругой, изменили его местоположение и т. д.… Построение модели, например, графика на основе текста, недостаточно, потому что это это не что-то статичное, оно может описывать несколько временных шкал, событий и контекстов, плюс в каждом предложении есть скрытая информация, которую можно вывести и использовать для понимания предыдущих или последующих предложений.
inf3rno
2

Я почти уверен, что ответ «нет» в самом строгом смысле, поскольку у английского просто нет формального определения. То есть никто не контролирует английский и не публикует формальную грамматику, которой должен придерживаться каждый. Английский построен на основе экспериментального процесса и имеет противоречия и недостатки, но вероятностный характер человеческого разума позволяет нам обходить их.

Например, вот это «предложение»:

В этом предложении нет глагола

Технически это вообще не предложение, поскольку в нем нет глагола. Но кто-нибудь имел проблемы с пониманием того, что это значит? Сомнительно. Попробуйте придумать формальное правило для этого. И это только один пример.

Теперь, не могли бы вы придумать формальную грамматику, которая покрывает, может быть, 90% случаев и является «достаточно хорошей» для большинства практических целей? Возможно, возможно даже возможно. Но я почти уверен, что невозможно достичь 100%.

Mindcrime
источник
1
Ваш пример не грамматический, так почему грамматика должна содержать формальное правило для ее описания?
BlindKungFuMaster
1
Это точно моя точка зрения. Это явно английский и понятно, но если он не соответствует общепринятому определению грамматики английского языка. Следовательно, это пример того, как реальный разговорный английский работает за пределами жесткой грамматики.
mindcrime
2

Мы пришли к выводу, что это двусторонняя круговая проблема: структура не может быть выведена без контекста, но знание структуры также помогает вывести контекст. Итак, вот ваше комплексное решение: начните с контекста, который определяется сочетанием слов в предложении (комбинаторика и проблема поиска), оттуда определите свою структуру или «разберите» (на этом этапе вы также можете отфильтровать некоторые незначительные слова или, по крайней мере, присвойте им меньшие веса), вернитесь к контексту, вернитесь к синтаксическому анализу и продолжайте, пока не получите значение. Таким образом, путем итеративного, рекурсивного сокращения вся проблема может быть решена.

Посторонний
источник
2

Я категорически не согласен со всеми прежними комментариями. Не потому, что они не правы, а не потому, что они вводят в заблуждение, хотя и неумышленно.

Например: если взглянуть на эти проблемы с академической точки зрения, проблемы всегда будут казаться непреодолимыми. Это потому, что все холодно оценивается и рассчитывается изолированно от всего остального.

Ответ в основном заключается в словесной ассоциации . Вы должны написать программу, которая может обрабатывать обширную базу данных цифровых книг, регистрировать каждое слово и все слова на этом языке, которые связаны с ним. Плюс вся статистическая информация с каждым связанным словом и связанной с ним пунктуацией.

Это даст вам основу, на которой ИИ может решить несколько вещей:

  1. Правильна ли структура данного предложения.
  2. Если структура плохая, какова вероятность определения контекста и намерения того, что говорится.
  3. Правильное значение и применение многогранного слова (Триумф), скорее всего, согласно статистике.
  4. Чтобы определить, где разговор может идти.
  5. Какая правильная грамматика и пунктуация должны быть.

Итак, в заключение у вас есть две вещи для поиска: ассоциация и вероятность.

При цифровой базе данных языковой модели возникает возможность «строк» ​​слова и предложения, так что каждый вариант языковой структуры в любом предложении может быть определен до, во время и после того, как образец текста размечается. Этот глубокий контроль над шаблонами языковой модели означает, что чувствительные компоненты, такие как «субъект» и «объект», могут быть легко определены с помощью кода.

заниматься
источник
Я думаю, что это слишком оптимистично. Язык слишком грязный, чтобы это работало.
Оливер Мейсон,