Вопросы с тегом «string-metrics»

41
Эффективные структуры данных для построения быстрой проверки орфографии

Я пытаюсь написать проверку орфографии, которая должна работать с довольно большим словарем. Я действительно хочу, чтобы эффективный способ индексирования данных моего словаря использовался с использованием расстояния Дамерау-Левенштейна, чтобы определить, какие слова наиболее близки к слову с...

28
Почему пустой тип C не аналогичен пустому / нижнему типу?

Википедия, а также другие источники, которые я обнаружил в списке voidтипа C как тип единицы, а не пустой тип. Мне кажется, что это сбивает с толку, так как мне кажется, что оно voidлучше подходит под определение пустого / нижнего типа voidНасколько я могу судить, ценности не обитают . Функция с...

12
Изменить расстояние списка с уникальными элементами

Расстояние редактирования Левенштейна-расстояния между списками является хорошо изученной проблемой. Но я не могу найти много о возможных улучшениях, если известно, что ни один элемент не встречается более одного раза в каждом списке . Также предположим, что элементы сопоставимы / сортируемы (но...

10
Определение того, насколько данная строка похожа на коллекцию строк

Я не уверен, принадлежит ли этот вопрос здесь, и я прошу прощения, если нет. Что я хочу сделать, так это разработать программный способ, с помощью которого я могу вероятностно определить, принадлежит ли данная строка «сумке строк». Например, если у меня есть сумка из 10 000 названий городов США, а...

10
Микрооптимизация для вычисления расстояния редактирования: это правильно?

В Википедии дается реализация восходящей схемы динамического программирования для расстояния редактирования. Это не следует определению полностью; внутренние ячейки вычисляются следующим образом: if s[i] = t[j] then d[i, j] := d[i-1, j-1] // no operation required else d[i, j] := minimum ( d[i-1, j]...

10
Алгоритм быстрого k несоответствия строк

Я ищу быстрый алгоритм сопоставления строк k-несоответствие. Учитывая строку шаблона P длины m и текстовую строку T длины n, мне нужен быстрый (линейное время) алгоритм, чтобы найти все позиции, где P соответствует подстроке T с не более чем k несоответствиями. Это отличается от проблемы k-отличий...

10
Можно ли превратить парсер Earley в нечеткий парсер, похожий на алгоритм Levenshtein Automata Algo для DFA?

Есть способ выполнить нечеткий синтаксический анализ (принимает строки даже с опечатками на определенном расстоянии редактирования), с помощью DFA и встроенных автоматов Левенштейна для входного слова. Может ли нечто подобное быть сделано с парсером Earley? Мне трудно понять алгоритм, не говоря уже...

9
Выражение произвольной перестановки в виде последовательности операций (вставка, перемещение, удаление)

Предположим, у меня есть две строки. Назовите их и . Ни одна строка не имеет повторяющихся символов.AAABBB Как найти самую короткую последовательность операций вставки, перемещения и удаления, которая превращает в , где:AAABBB insert(char, offset)вставляет charв заданную offsetстроку...