Почему регулярные выражения определяются с помощью операций объединения, конкатенации и звездочек?

11

Регулярная expresssion определяется рекурсивно

$a$ для некоторых - это регулярное выражение, $a \in \Sigma$
$\varepsilon$ - это регулярное выражение,
$\emptyset$ - это регулярное выражение,
$(R_1 \cup R_2)$ где и - регулярные выражения, регулярное выражение, $R_1$ $R_2$
$(R_1 \circ R_2)$ где и - регулярные выражения, регулярное выражение, $R_1$ $R_2$
$(R_1)^*$ где - это регулярное выражение. $R_1$

Это определение взято со страницы 64

Сипсер, Майкл. Введение в теорию вычислений, 3-е издание. Cengage Learning, 2012.

Теперь у меня есть следующие вопросы.

Почему не определение содержит intersection, complementили reverseоперации?
Если мы изменим 4-й элемент на , получим ли мы эквивалентное определение, то есть для каждого регулярного языка есть измененное регулярное выражение и наоборот? $R_1 \cap R_2$
Я знаю, что это определение является полным и четко определенным, но почему оно предпочтительнее других эквивалентных, четко определенных и полных определений?

formal-languages regular-languages regular-expressions Али Шакиба
источник

2

Пожалуйста, ограничьте себя одним вопросом на пост.

Рафаэль

16

1) Если мы также позволяют пересечение и дополнение, то полученные выражения иногда называют расширенные регулярные выражения; поскольку обычные языки закрыты под логическими операциями, они ничего не получают. Это просто синтаксический сахар. Аналогичное заключение справедливо и для обратной операции. Частично причина, по которой в первом случае все другие операции не упоминаются, заключается в том, чтобы сделать определение как можно более простым, чтобы (индуктивные) доказательства не приходилось заботиться о многих случаях. Другая причина может заключаться в том, что если мы разрешаем определенные операции, а другие нет, то в некоторых случаях получаются очень разные (субрегулярные) языковые классы, например, если мы рассмотрим расширенное регулярное выражение без оператора звезды, то мы получим надлежащий подкласс регулярных , так называемые звездообразными бесплатно или апериодические языки см википедии: звезда свободного языка .

2) Если мы сохраним пункты 1. - 6., но просто изменим пункт 4. при использовании пересечения вместо объединения, мы получим надлежащий подкласс обычных языков. Например , мы уже не могли описать язык , поскольку это повлечет за собой объединение и (доказательство см ниже). Если мы допускаем комплементации, все меняется , как мы накидной обратно по законам де Моргана. $L = \{a,b\}$ $\{a\}$ $\{b\}$

3) Я частично ответил на это в 1), но что вы имеете в виду, когда говорите, что это определение предпочтительнее? Я знаю определения, где 2. опущено (как мы имеем 6., что ), или 3. опущено (как у нас есть )), или оба опущены; так что это не минимально возможное определение (оно также дает нам некоторый синтаксический сахар, поскольку у нас есть дополнительные символы для описания и ). $L(\emptyset^{\ast}) = \{\varepsilon\}$ $\emptyset = L(\overline{ X^{\ast} }$ $\{\varepsilon\}$ $\emptyset$

EDIT : Мой первый вышеупомянутый комментарий в 2) был неправ, языками в индуктивном закрытии под , и делать провайдер блокирует не являются подмножествами для некоторых , например , рассмотрим . Тем не менее , мы имеем , что не может быть описано с помощью такого выражения. Я дам доказательство, а именно I доказательство , что если , для некоторого выражения с модифицированным 4 - й пунктом, а затем , если (и , следовательно ) доказательство идет по индукции по выражению $\circ$ $^{\ast}$ $\cap$ $x^{\ast}$ $x \in X$ $L(a\circ b) = \{ab\}$ $L = \{a,b\}$ $L = L(R)$ $X = \{a,b\}$ $a\ne b$

{a, б} \subseteq L \Rightarrow a б \in L,

$\{a,b\} \subseteq L \Rightarrow ab \in L.$

R

$R$ . Для базового случая он держит бессодержательно, теперь предположим , что имеет место для . Если и , то , следовательно , по предположению индукции мы имеем . Если , то , как мы должны иметь и или наоборот. Предположим, первый случай. Если , а затем путем индукции, следовательно ,

L (R_{1}), L (R_{2})

$L(R_1), L(R_2)$

L = L (R_{1} \cap R_{2}) = L (R_{1}) \cap L (R_{2})

$L = L(R_1 \cap R_2) = L(R_1) \cap L(R_2)$

{a, b} \subseteq L

$\{a,b\} \subseteq L$

{a, b} \subseteq L (R_{i}), i = 1, 2

$\{a,b\} \subseteq L(R_i), i = 1,2$

a b \in L (R_{1}) \cap L (R_{2})

$ab \in L(R_1) \cap L(R_2)$

{a, b} \subseteq L (R_{1} \circ R_{2}) = L (R_{1}) L (R_{2})

$\{a,b\} \subseteq L(R_1\circ R_2) = L(R_1)L(R_2)$

a = a \cdot ε = ε \cdot a

$a = a\cdot \varepsilon = \varepsilon\cdot a$

a \in L (R_{1})

$a\in L(R_1)$

ε \in L (R_{2})

$\varepsilon \in L(R_2)$

b \in L (R_{1})

$b \in L(R_1)$

a b \in L (R_{1})

$ab \in L(R_1)$

a b = a b \cdot ε \in L (R_{1}) L (R_{2})

$ab = ab\cdot \varepsilon \in L(R_1)L(R_2)$ . Теперь предположим , что , то мы имеем по определению . И, наконец , если , то и для некоторого . Если мы находим , по предположению индукции, поэтому предположим , но это дает , аналогичный либо или дает и предположение индукции дает

b \in L (R_{2})

$b \in L(R_2)$

a \cdot b \in L (R_{2}) L (R_{2})

$a\cdot b \in L(R_2)L(R_2)$

L (R_{1}) L (R_{2})

$L(R_1)L(R_2)$

a, b \in L (R_{1}^{*})

$a,b \in L(R_1^{\ast})$

a \in L (R_{1})^{n}

$a \in L(R_1)^n$

b \in L (R_{2})^{m}

$b \in L(R_2)^m$

n, m > 0

$n,m > 0$

n = m = 1

$n = m = 1$

a b \in L (R_{1})

$ab \in L(R_1)$

n > 1

$n > 1$

a \in L (R_{1})

$a \in L(R_1)$

m = 1

$m = 1$

m > 1

$m > 1$

b \in L (R_{1})

$b \in L(R_1)$

a b \in L (R_{1}) \subseteq L (R_{1}^{*})

$ab \in L(R_1) \subseteq L(R_1^{\ast})$ ,

◻

$\square$

Замечание: один из наиболее часто используемых выводов: если , то или . Это следует какследовательно, и или и . В первом случае мы имеем и, следовательно, . $a = uw$ $u = a$ $w = a$ $1 = |a| = |uw| = |u| + |w|$ $|u| = 0$ $|w| = 1$ $|u| = 1$ $|w| = 0$ $u = \varepsilon$ $a = w$

StefanH
источник

2

На самом деле не входит в набор «нерегулярных» языков, но потому что .

{a, b}

$\{a,b\}$

{a, b}^{*}

$\{a,b\}^{\ast}$

{a, b}^{*} = (a^{*} \circ b^{*})^{*}

$\{a,b\}^{\ast} = (a^{\ast}\circ b^{\ast})^{\ast}$

Ричи

Да, иногда бывает немного сложно увидеть, что можно выразить, а что нет, как при умной комбинации звезды и других, вы можете получить довольно далеко.

StefanH

10

Технический отчет, в котором представлены регулярные языки, регулярные выражения и конечные автоматы, задает ваш вопрос на странице 70:

Читателю может возникнуть вопрос: почему мы выбрали три конкретные операции , и ? $E\vee F$ $EF$ $E*F$

(Вскоре после этого было отмечено, что $E^*$ является более удобным оператором, чем $E*F$ и эквивалентен по мощности. Поэтому в наши дни мы используем вместо него $E^*$ .)

Ответ занимает несколько страниц. Во-первых, отмечается, что нужно искать ответ в том, образуют ли полученные языки интересный класс и как они сравниваются с языками, описанными другими способами. На странице 72 отмечается, что отрицание и соединение избыточны: они не добавляют никакой выразительной силы. На странице 80 и далее доказано, что обычные языки - это в точности языки, распознаваемые конечными автоматами.

Другими словами: ответ Стефана можно смело считать окончательным, поскольку он уже был приведен в докладе, в котором впервые были представлены эти концепции.

reinierpost
источник

Спасибо за ссылку. Я всегда объясняю своим студентам, что операции - это естественные абстракции из последовательности выбора (например, if-then-else) (инструкции следуют друг за другом) и итерации (например, while-do). Но, видимо, это не упоминается Клини?

Хендрик янв

Я просто парень, который посмотрел статью Клин и был удивлен, что все в моем ответе уже было там. Я не знаю ничего другого. Поэтому я полагаю, что ответом будет прочитать статью и, возможно, поискать что-нибудь, что Клин уже писал по этому поводу.

reinierpost

4

Из этого отбора операторов (объединения, конкатенации и звезды) можно построить НКА с размером линейной к размеру выражения. С другой стороны, если вы добавите пересечение и комплементацию, размер эквивалентного автомата может привести к взрыву, не элементарно, который, как правило, не желательно.

doganulus
источник

Почему регулярные выражения определяются с помощью операций объединения, конкатенации и звездочек?

Ответы: