Разделение слов со случайными DFA

15

Одна из интересных открытых проблем о DFA, перечисленных в разделе. Есть ли еще какие-либо открытые проблемы о DFA? размер DFA, необходимый для разделения двух строк длины . Мне любопытно, есть ли какие-либо результаты о способности случайного DFA разделять две заданные (неслучайные) строки.N

Очевидно, что случайный DFA с достаточным количеством состояний разделяет строки с высокой вероятностью. В частности, если , случайный DFA с O ( п ) утверждает , вряд ли когда - нибудь вернуться в том же состоянии , как только он достигает первое место , где у и v различны, и , следовательно , разделяет U и v .U,vΣNО(N)UvUv

Можем ли мы сделать лучше? В идеале, что является наименьшим й , что случайная DFA с F ( N ) государств разделяет строк длины п с положительной вероятностью (или , возможно , вероятность 1 / 2 )? Краткий поиск не дал много результатов о свойствах случайных DFA; все, что я мог найти, было http://arxiv.org/abs/1311.6830 .е(N)е(N)N1/2

Джеффри Ирвинг
источник
Положительная вероятность не является особенно полезным условием, учитывая, что это просто переформулировка открытой проблемы. Высокая вероятность все еще может быть интересной.
Джеффри Ирвинг
1
Что значит «отделяет»? Принимает одно и отклоняет другое? Если так, то очевидно ли, что состояний достаточно? О(N)
усул
Да, разделяет, значит принимает ровно одну. И вы правы: самый тривиальный аргумент разделения на самом деле требует состояний (то, что я написал выше, неверно), хотя я был бы удивлен, если бы многих из них не хватило. О(N2)
Джеффри Ирвинг
1
Разве вы не ожидаете, что границы будут зависеть от того, насколько отличаются слова? Кажется, что слова, отличающиеся одной буквой, будет сложнее различить наугад, потому что вам нужно различать при этом одном переходе, и совсем другие слова будут проще. [Обобщая, вы можете забыть о самом длинном общем префиксе (из этого вы получите случайное состояние); затем разные письма отправляют вас в одно и то же или в разные штаты; затем, если состояния разные, вам нужно посмотреть на вероятность повторной синхронизации и сохранения синхронизации (начинается снова в зависимости от слов) ...]
a3nm
Да, как и открытая проблема, меня интересуют самые сложные слова для различения. Слова, которые различаются только в нескольких местах, уже могут быть разделены состояниями, поэтому они вряд ли будут трудным случаем. О(журналN)
Джеффри Ирвинг

Ответы:

2

[Редактировать: этот ответ не работает, см. Комментарии.]

Это просто неформальная идея, и я не знаю, поможет ли это, но это слишком долго, чтобы давать комментарии. Кроме того, я совсем не знаком со случайными DFA, поэтому, возможно, у меня неправильное представление о том, как вы должны рассуждать о вероятностях для них, но, надеюсь, это не совсем бесполезно.

Я предполагаю, что ваши границы должны зависеть от того, насколько различаются и v ; если они этого не делают, мне кажется, что наихудший случай - это строки, отличающиеся только своим первым символом (строки, различающиеся в наборе X позиций, имеют больше шансов быть отличимыми друг от друга, чем строки, различающиеся в наборе Y X позиций Я бы сказал, и если вы внесете разницу как можно раньше, у вас будет возможность выполнить повторную синхронизацию.uvXYX

Я также посмотрю на вероятность того, что слова различаются, а именно, они достигают разных состояний. Я полагаю, что вам нужно будет адаптироваться к тому, чтобы быть принятым или отклоненным на основании того, как ваши случайные DFA распределяют конечные состояния. Если каждое состояние имеет вероятность 1/2 быть окончательным, то когда строки оказываются в одном и том же состоянии, они не различаются, а когда они оказываются в разных состояниях, они имеют вероятность 1/2 различения.

Теперь я буду рассматривать слово полученное из u и v, следующим образом: w i = 1, если u i = v i , и w i = 0 в противном случае. Я думаю, что ясно, что w - единственная интересная вещь, которую нужно учитывать в отношении u и v .wuvwi=1ui=viwi=0wuv

Теперь определите вероятность того, что мы находимся в том же состоянии после считывания префиксов длины i из u и v , а q ( i ) = 1 - p ( i ) вероятность того, что мы не являемся.p(i)iuvq(i)=1p(i)

Я думаю, что мы имеем когда w i + 1 равно 1 . Интуитивно понятно, что мы находимся в одном и том же состоянии после прочтениябукв i + 1, когда мы были в одном и том же состоянии после прочтения i , или когда мы были в двух разных (случайных) состояниях, мы нарисовали два перехода в случайные состояния, и они оказались будь таким же. Аналогично, мы имеем p ( i + 1 ) = 1p(i+1)=p(i)+q(i)/nwi+11i+1i когда w i + 1 равно 0 : вы рисуете два случайных состояния, независимо от того, откуда вы начали.p(i+1)=1/nwi+10

Исходя из этого, я думаю, что вы могли бы вычислить вероятность нахождения в том же состоянии после прочтения и v .uv

a3nm
источник
К сожалению, далеко не очевидно, что - единственное интересное свойство u и v . Самый простой способ убедиться в этом состоит в том, что существует тривиальная ненулевая вероятность отличия любого нетривиального w от 0 n ; действительно, только два состояния достаточно независимо от n . Однако, как обсуждалось в arxiv.org/pdf/1103.4513.pdf , есть слова u , v длины n st, o o ( log n ), состояние DFA может их различать. Это противоречит вашим формулам для p ( i )весUvвес0NNU,vNо(журналN)п(я),
Джеффри Ирвинг
1
Чтобы уточнить, ваши формулы были бы правильными, если бы переходы DFA были случайной функцией строкового индекса; поскольку они не зависят от индекса, вероятности коррелируются довольно сложным образом.
Джеффри Ирвинг
Боюсь, я не понимаю ваш контрпример. Существует prba с двумя состояниями различения 0 n и w 0>00n , ОК; и, возможно, есть слова длины n, которые нельзя отличить от o ( log n ) состояний. Но как это противоречит моему утверждению, что w - единственная важная вещь, или моим формулам для p ( i )?w0nno(logn)wp(i)? Что касается корреляций, я вижу, что вы могли бы упомянуть тот улов, о котором вы упомянули, но я пока не понимаю, почему это точно не получается. Если вы дважды проходите через одно и то же состояние, существует корреляция, но есть ли основания полагать, что это в среднем повлияет на определенное направление?
a3nm
Если , u и v различаются с положительной вероятностью. Однако для достаточно больших n и малого числа состояний мы знаем, что p ( n ) = 1 для некоторых u и v . Поскольку из ваших формул следует, что если p ( ( i ) ) / n = p ( i ) ( 1 - 1 / n ) + 1 /p(n)<1uvnp(n)=1uv то p ( i + 1 ) = p ( i ) + ( 1 - pp(i)<1 , ваша формула не учитывает тот факт, что некоторые u и v невозможно различить. p(i+1)=p(i)+(1p(i))/n=p(i)(11/n)+1/n<1uv
Джеффри Ирвинг
Ах ... правильно, я понимаю. Если ни один маленький DFA не может различить два слова, то и случайный DFA не может их различить. Так что, действительно, есть проблема с моим подходом, вероятность должна в конечном итоге упасть до нуля, из-за этих корреляций, кажется. Извините за неправильный ответ. Q(я)
августа