В языках программирования существует набор правил грамматики, которые управляют построением допустимых операторов и выражений. Эти правила помогают в анализе программ, написанных пользователем.
Может ли когда-либо существовать функционально полный набор правил грамматики, которые могут точно анализировать любое утверждение на английском языке (специфично для локали) и которые могут быть реализованы для использования в проектах на основе AI?
Я знаю, что в Интернете доступно множество наборов НЛП, но они не настолько эффективны. Большинство из них обучаются с использованием определенных корпусов, которые иногда не в состоянии вывести некоторые сложные корреляции между различными частями выражения.
Другими словами, я спрашиваю, возможно ли, чтобы компьютер анализировал хорошо подготовленное предложение, написанное на английском языке, как если бы оно было проанализировано взрослым англоговорящим человеком?
РЕДАКТИРОВАТЬ: Если это не может быть представлено с помощью простых правил грамматики, какой тип семантической структуры может быть использован для ее обобщения?
РЕДАКТИРОВАТЬ 2: Эта статья доказывает отсутствие свободы контекста в естественных языках. Я ищу решение, даже если оно слишком сложное.
источник
Ответы:
Разобрать это да, точно скорее всего нет.
Почему ?
В соответствии с моим пониманием того, как мы получаем значение из звуков, существует две взаимодополняющие стратегии:
Правила грамматики: основанная на правилах система для упорядочения слов, чтобы облегчить общение, здесь значение происходит от взаимодействия отдельных звуков и их независимого значения, так что вы можете проанализировать предложение на основе книги правил.
Например, «Это был триумф» : синтаксический анализатор извлекал бы местоимение ( This ) с соответствующим значением (конкретный человек или вещь); глагол ( был ) с соответствующим значением (произошло); ( а ) и здесь мы начнем с некоторых проблем с синтаксическим анализом: что извлечет парсер, существительное или неопределенный артикль? Итак, мы обращаемся к книге правил грамматики и соглашаемся со значением (неопределенная статья, любая из), вам нужно проанализировать следующее слово и обратиться к нему, хотя, но давайте пока затмем это, и наконец ( триумф ) существительное (это также может быть глагол, но благодаря книге правил грамматики мы согласились на существительное со значением: (победа, завоевание), так что в итоге мы имеем (объединяя значения):
Определенная вещь произошла из победы. Достаточно близко, и я примыкаю к нескольким другим правилам, но это не главное, другая стратегия:
Лексический словарь (или лексикон), где слова или звуки связаны с определенным значением. Здесь значение происходит от одного или нескольких слов или звуков как единое целое. Это создает проблему для синтаксического анализатора, поскольку он ничего не должен анализировать.
Например, «Non Plus Ultra». И поэтому анализатор ИИ признает, что эту фразу не нужно анализировать, а вместо этого сопоставить со значением:
Высшая точка или кульминация
Лексические единицы представляют другую проблему в том, что они сами могут быть частью первого примера, и в результате вы получите рекурсию.
Я полагаю, что это возможно, большинство примеров, которые я видел, эффективно справляются с книгой правил грамматики или частью лексики, но я не знаю о комбинации обоих, но с точки зрения программирования это могло бы произойти.
К сожалению, даже если вы решите эту проблему, ваш ИИ на самом деле не будет понимать вещи в строгом смысле, а скорее представит вам очень сложные синонимы, кроме того, контекст (как упомянуто в комментариях) играет роль в грамматических и лексиконных стратегиях.
Смешанный, в котором есть как грамматические правила, так и лексикон, и оба могут изменяться и подвергаться влиянию на основе конкретного контекста и опыта ИИ, а также системы для работы с этими объектами, может быть одним из способов.
источник
Я почти уверен, что ответ «нет» в самом строгом смысле, поскольку у английского просто нет формального определения. То есть никто не контролирует английский и не публикует формальную грамматику, которой должен придерживаться каждый. Английский построен на основе экспериментального процесса и имеет противоречия и недостатки, но вероятностный характер человеческого разума позволяет нам обходить их.
Например, вот это «предложение»:
В этом предложении нет глагола
Технически это вообще не предложение, поскольку в нем нет глагола. Но кто-нибудь имел проблемы с пониманием того, что это значит? Сомнительно. Попробуйте придумать формальное правило для этого. И это только один пример.
Теперь, не могли бы вы придумать формальную грамматику, которая покрывает, может быть, 90% случаев и является «достаточно хорошей» для большинства практических целей? Возможно, возможно даже возможно. Но я почти уверен, что невозможно достичь 100%.
источник
Мы пришли к выводу, что это двусторонняя круговая проблема: структура не может быть выведена без контекста, но знание структуры также помогает вывести контекст. Итак, вот ваше комплексное решение: начните с контекста, который определяется сочетанием слов в предложении (комбинаторика и проблема поиска), оттуда определите свою структуру или «разберите» (на этом этапе вы также можете отфильтровать некоторые незначительные слова или, по крайней мере, присвойте им меньшие веса), вернитесь к контексту, вернитесь к синтаксическому анализу и продолжайте, пока не получите значение. Таким образом, путем итеративного, рекурсивного сокращения вся проблема может быть решена.
источник
Я категорически не согласен со всеми прежними комментариями. Не потому, что они не правы, а не потому, что они вводят в заблуждение, хотя и неумышленно.
Например: если взглянуть на эти проблемы с академической точки зрения, проблемы всегда будут казаться непреодолимыми. Это потому, что все холодно оценивается и рассчитывается изолированно от всего остального.
Ответ в основном заключается в словесной ассоциации . Вы должны написать программу, которая может обрабатывать обширную базу данных цифровых книг, регистрировать каждое слово и все слова на этом языке, которые связаны с ним. Плюс вся статистическая информация с каждым связанным словом и связанной с ним пунктуацией.
Это даст вам основу, на которой ИИ может решить несколько вещей:
Итак, в заключение у вас есть две вещи для поиска: ассоциация и вероятность.
При цифровой базе данных языковой модели возникает возможность «строк» слова и предложения, так что каждый вариант языковой структуры в любом предложении может быть определен до, во время и после того, как образец текста размечается. Этот глубокий контроль над шаблонами языковой модели означает, что чувствительные компоненты, такие как «субъект» и «объект», могут быть легко определены с помощью кода.
источник