Лучший алгоритм ранжирования сходства для строк переменной длины

152

Я ищу алгоритм сходства строк, который дает лучшие результаты для строк переменной длины, чем те, которые обычно предлагаются (расстояние Левенштейна, Саундекс и т. Д.).

Например,

Заданная строка A: «Роберт»,

Затем строка B: «Эми Робертсон»

будет лучше, чем

Строка C: «Ричард»

Также, предпочтительно, этот алгоритм должен быть независимым от языка (также работает на языках, отличных от английского).

Марзаган
источник
аналогично в .net: stackoverflow.com/questions/83777/…
Сиро Сантилли 郝海东 冠状 病 六四 事件 法轮功
Также проверьте: коэффициент Dice
avid_useR

Ответы:

155

Саймон Уайт из Catalysoft написал статью об очень умном алгоритме, который сравнивает смежные пары символов, который действительно хорошо подходит для моих целей:

http://www.catalysoft.com/articles/StrikeAMatch.html

У Саймона есть версия алгоритма на Java, и ниже я написал его версию на PL / Ruby (взято из простой рубиновой версии, сделанной в соответствующем комментарии к записи на форуме Марка Вонга-ВанХарена), чтобы я мог использовать его в своих запросах PostgreSQL:

CREATE FUNCTION string_similarity(str1 varchar, str2 varchar)
RETURNS float8 AS '

str1.downcase! 
pairs1 = (0..str1.length-2).collect {|i| str1[i,2]}.reject {
  |pair| pair.include? " "}
str2.downcase! 
pairs2 = (0..str2.length-2).collect {|i| str2[i,2]}.reject {
  |pair| pair.include? " "}
union = pairs1.size + pairs2.size 
intersection = 0 
pairs1.each do |p1| 
  0.upto(pairs2.size-1) do |i| 
    if p1 == pairs2[i] 
      intersection += 1 
      pairs2.slice!(i) 
      break 
    end 
  end 
end 
(2.0 * intersection) / union

' LANGUAGE 'plruby';

Работает как шарм!

Марзаган
источник
32
Вы нашли ответ и написали все это за 4 минуты? Впечатляет!
Мэтт Дж
28
Я подготовил свой ответ после некоторых исследований и внедрения. Я положил это здесь в пользу тех, кто еще ищет SO в поисках практического ответа с использованием альтернативного алгоритма, потому что большинство ответов в смежных вопросах, кажется, вращаются вокруг левенштейна или соундекса.
Marzagao
18
Как раз то, что я искал. Ты выйдешь за меня?
BlackTea
6
@JasonSundram прав - на самом деле, это является хорошо известным коэффициентом Dice на биграммах символьного уровня, как пишет автор в «добавлении» ( в нижней части страницы).
Фред Фу
4
Это возвращает «оценку» 1 (100% совпадение) при сравнении строк, имеющих одну изолированную букву как разницу, как этот пример: string_similarity("vitamin B", "vitamin C") #=> 1есть ли простой способ предотвратить такое поведение?
MrYoshiji
77

Ответ Марзагао великолепен. Я преобразовал это в C #, таким образом я думал, что отправлю это здесь:

Pastebin Link

/// <summary>
/// This class implements string comparison algorithm
/// based on character pair similarity
/// Source: http://www.catalysoft.com/articles/StrikeAMatch.html
/// </summary>
public class SimilarityTool
{
    /// <summary>
    /// Compares the two strings based on letter pair matches
    /// </summary>
    /// <param name="str1"></param>
    /// <param name="str2"></param>
    /// <returns>The percentage match from 0.0 to 1.0 where 1.0 is 100%</returns>
    public double CompareStrings(string str1, string str2)
    {
        List<string> pairs1 = WordLetterPairs(str1.ToUpper());
        List<string> pairs2 = WordLetterPairs(str2.ToUpper());

        int intersection = 0;
        int union = pairs1.Count + pairs2.Count;

        for (int i = 0; i < pairs1.Count; i++)
        {
            for (int j = 0; j < pairs2.Count; j++)
            {
                if (pairs1[i] == pairs2[j])
                {
                    intersection++;
                    pairs2.RemoveAt(j);//Must remove the match to prevent "GGGG" from appearing to match "GG" with 100% success

                    break;
                }
            }
        }

        return (2.0 * intersection) / union;
    }

    /// <summary>
    /// Gets all letter pairs for each
    /// individual word in the string
    /// </summary>
    /// <param name="str"></param>
    /// <returns></returns>
    private List<string> WordLetterPairs(string str)
    {
        List<string> AllPairs = new List<string>();

        // Tokenize the string and put the tokens/words into an array
        string[] Words = Regex.Split(str, @"\s");

        // For each word
        for (int w = 0; w < Words.Length; w++)
        {
            if (!string.IsNullOrEmpty(Words[w]))
            {
                // Find the pairs of characters
                String[] PairsInWord = LetterPairs(Words[w]);

                for (int p = 0; p < PairsInWord.Length; p++)
                {
                    AllPairs.Add(PairsInWord[p]);
                }
            }
        }

        return AllPairs;
    }

    /// <summary>
    /// Generates an array containing every 
    /// two consecutive letters in the input string
    /// </summary>
    /// <param name="str"></param>
    /// <returns></returns>
    private string[] LetterPairs(string str)
    {
        int numPairs = str.Length - 1;

        string[] pairs = new string[numPairs];

        for (int i = 0; i < numPairs; i++)
        {
            pairs[i] = str.Substring(i, 2);
        }

        return pairs;
    }
}
Майкл Ла Вой
источник
2
+100, если бы я мог, ты только что избавил меня от трудного рабочего дня! Приветствия.
vvohra87
1
Очень хорошо! Единственное предложение, которое у меня есть, - сделать это расширением.
Левитикон
+1! Здорово, что это работает, с небольшими изменениями для Java тоже. И это, кажется, дает лучшие ответы, чем Левенштейн.
Xyene
1
Я добавил версию, конвертирующую это в метод расширения ниже. Спасибо за оригинальную версию и отличный перевод.
Фрэнк Рундац
@Michael La Voie Спасибо, это очень приятно! Хотя небольшая проблема с (2.0 * intersection) / union- я получаю Double.NaN при сравнении двух пустых строк.
Войтех Дональ
41

Вот еще одна версия ответа Марзагао , написанная на Python:

def get_bigrams(string):
    """
    Take a string and return a list of bigrams.
    """
    s = string.lower()
    return [s[i:i+2] for i in list(range(len(s) - 1))]

def string_similarity(str1, str2):
    """
    Perform bigram comparison between two strings
    and return a percentage match in decimal form.
    """
    pairs1 = get_bigrams(str1)
    pairs2 = get_bigrams(str2)
    union  = len(pairs1) + len(pairs2)
    hit_count = 0
    for x in pairs1:
        for y in pairs2:
            if x == y:
                hit_count += 1
                break
    return (2.0 * hit_count) / union

if __name__ == "__main__":
    """
    Run a test using the example taken from:
    http://www.catalysoft.com/articles/StrikeAMatch.html
    """
    w1 = 'Healed'
    words = ['Heard', 'Healthy', 'Help', 'Herded', 'Sealed', 'Sold']

    for w2 in words:
        print('Healed --- ' + w2)
        print(string_similarity(w1, w2))
        print()
Джон Ратледж
источник
2
Есть небольшая ошибка в string_s Similarity, когда в слове присутствуют повторяющиеся нграммы, что приводит к баллу> 1 для идентичных строк. Добавление 'break' после "hit_count + = 1" исправляет это.
Jbaiter
1
@jbaiter: Хороший улов. Я изменил это, чтобы отразить ваши изменения.
Джон Ратледж
3
В статье Саймона Уайта он говорит: «Обратите внимание, что всякий раз, когда найдено совпадение, эта пара символов удаляется из второго списка массивов, чтобы мы не могли сопоставляться с одной и той же парой символов несколько раз. (В противном случае« GGGGG »даст идеальное совпадение. против «GG».) «Я бы изменил это утверждение, сказав, что оно даст превосходное совпадение. Без учета этого, похоже, также получается, что алгоритм не транзитивен (подобие (x, y) = / = сходство (y, x)). Добавление pair2.remove (y) после строки hit_count + = 1 решает проблему.
NinjaMeTimbers
17

Вот моя PHP-реализация предложенного алгоритма StrikeAMatch от Саймона Уайта. Преимущества (как сказано в ссылке):

  • Истинное отражение лексического сходства - строки с небольшими различиями следует признать сходными. В частности, значительное совпадение подстрок должно указывать на высокий уровень сходства между строками.

  • Устойчивость к изменениям порядка слов - две строки, которые содержат одинаковые слова, но в другом порядке, должны распознаваться как сходные. С другой стороны, если одна строка является просто случайной анаграммой символов, содержащихся в другой, то она должна (обычно) распознаваться как разнородная.

  • Независимость от языка - алгоритм должен работать не только на английском, но и на разных языках.

<?php
/**
 * LetterPairSimilarity algorithm implementation in PHP
 * @author Igal Alkon
 * @link http://www.catalysoft.com/articles/StrikeAMatch.html
 */
class LetterPairSimilarity
{
    /**
     * @param $str
     * @return mixed
     */
    private function wordLetterPairs($str)
    {
        $allPairs = array();

        // Tokenize the string and put the tokens/words into an array

        $words = explode(' ', $str);

        // For each word
        for ($w = 0; $w < count($words); $w++)
        {
            // Find the pairs of characters
            $pairsInWord = $this->letterPairs($words[$w]);

            for ($p = 0; $p < count($pairsInWord); $p++)
            {
                $allPairs[] = $pairsInWord[$p];
            }
        }

        return $allPairs;
    }

    /**
     * @param $str
     * @return array
     */
    private function letterPairs($str)
    {
        $numPairs = mb_strlen($str)-1;
        $pairs = array();

        for ($i = 0; $i < $numPairs; $i++)
        {
            $pairs[$i] = mb_substr($str,$i,2);
        }

        return $pairs;
    }

    /**
     * @param $str1
     * @param $str2
     * @return float
     */
    public function compareStrings($str1, $str2)
    {
        $pairs1 = $this->wordLetterPairs(strtoupper($str1));
        $pairs2 = $this->wordLetterPairs(strtoupper($str2));

        $intersection = 0;

        $union = count($pairs1) + count($pairs2);

        for ($i=0; $i < count($pairs1); $i++)
        {
            $pair1 = $pairs1[$i];

            $pairs2 = array_values($pairs2);
            for($j = 0; $j < count($pairs2); $j++)
            {
                $pair2 = $pairs2[$j];
                if ($pair1 === $pair2)
                {
                    $intersection++;
                    unset($pairs2[$j]);
                    break;
                }
            }
        }

        return (2.0*$intersection)/$union;
    }
}
Игал Алкон
источник
17

Укороченная версия ответа Джона Ратледжа :

def get_bigrams(string):
    '''
    Takes a string and returns a list of bigrams
    '''
    s = string.lower()
    return {s[i:i+2] for i in xrange(len(s) - 1)}

def string_similarity(str1, str2):
    '''
    Perform bigram comparison between two strings
    and return a percentage match in decimal form
    '''
    pairs1 = get_bigrams(str1)
    pairs2 = get_bigrams(str2)
    return (2.0 * len(pairs1 & pairs2)) / (len(pairs1) + len(pairs2))
квант
источник
Даже intersectionпеременная является пустой строкой.
Chibueze Opata
14

Это обсуждение было действительно полезным, спасибо. Я преобразовал алгоритм в VBA для использования с Excel и написал несколько версий функции рабочего листа, одну для простого сравнения пары строк, другую для сравнения одной строки с диапазоном / массивом строк. Версия strSimLookup возвращает либо последнее наилучшее совпадение в виде строки, индекса массива или показателя сходства.

Эта реализация приводит к тем же результатам, что и в примере Amazon на веб-сайте Саймона Уайта, с несколькими небольшими исключениями в матчах с низким баллом; Я не уверен, где возникает разница, может быть функция Split VBA, но я не исследовал, так как она отлично работает для моих целей.

'Implements functions to rate how similar two strings are on
'a scale of 0.0 (completely dissimilar) to 1.0 (exactly similar)
'Source:   http://www.catalysoft.com/articles/StrikeAMatch.html
'Author: Bob Chatham, bob.chatham at gmail.com
'9/12/2010

Option Explicit

Public Function stringSimilarity(str1 As String, str2 As String) As Variant
'Simple version of the algorithm that computes the similiarity metric
'between two strings.
'NOTE: This verision is not efficient to use if you're comparing one string
'with a range of other values as it will needlessly calculate the pairs for the
'first string over an over again; use the array-optimized version for this case.

    Dim sPairs1 As Collection
    Dim sPairs2 As Collection

    Set sPairs1 = New Collection
    Set sPairs2 = New Collection

    WordLetterPairs str1, sPairs1
    WordLetterPairs str2, sPairs2

    stringSimilarity = SimilarityMetric(sPairs1, sPairs2)

    Set sPairs1 = Nothing
    Set sPairs2 = Nothing

End Function

Public Function strSimA(str1 As Variant, rRng As Range) As Variant
'Return an array of string similarity indexes for str1 vs every string in input range rRng
    Dim sPairs1 As Collection
    Dim sPairs2 As Collection
    Dim arrOut As Variant
    Dim l As Long, j As Long

    Set sPairs1 = New Collection

    WordLetterPairs CStr(str1), sPairs1

    l = rRng.Count
    ReDim arrOut(1 To l)
    For j = 1 To l
        Set sPairs2 = New Collection
        WordLetterPairs CStr(rRng(j)), sPairs2
        arrOut(j) = SimilarityMetric(sPairs1, sPairs2)
        Set sPairs2 = Nothing
    Next j

    strSimA = Application.Transpose(arrOut)

End Function

Public Function strSimLookup(str1 As Variant, rRng As Range, Optional returnType) As Variant
'Return either the best match or the index of the best match
'depending on returnTYype parameter) between str1 and strings in rRng)
' returnType = 0 or omitted: returns the best matching string
' returnType = 1           : returns the index of the best matching string
' returnType = 2           : returns the similarity metric

    Dim sPairs1 As Collection
    Dim sPairs2 As Collection
    Dim metric, bestMetric As Double
    Dim i, iBest As Long
    Const RETURN_STRING As Integer = 0
    Const RETURN_INDEX As Integer = 1
    Const RETURN_METRIC As Integer = 2

    If IsMissing(returnType) Then returnType = RETURN_STRING

    Set sPairs1 = New Collection

    WordLetterPairs CStr(str1), sPairs1

    bestMetric = -1
    iBest = -1

    For i = 1 To rRng.Count
        Set sPairs2 = New Collection
        WordLetterPairs CStr(rRng(i)), sPairs2
        metric = SimilarityMetric(sPairs1, sPairs2)
        If metric > bestMetric Then
            bestMetric = metric
            iBest = i
        End If
        Set sPairs2 = Nothing
    Next i

    If iBest = -1 Then
        strSimLookup = CVErr(xlErrValue)
        Exit Function
    End If

    Select Case returnType
    Case RETURN_STRING
        strSimLookup = CStr(rRng(iBest))
    Case RETURN_INDEX
        strSimLookup = iBest
    Case Else
        strSimLookup = bestMetric
    End Select

End Function

Public Function strSim(str1 As String, str2 As String) As Variant
    Dim ilen, iLen1, ilen2 As Integer

    iLen1 = Len(str1)
    ilen2 = Len(str2)

    If iLen1 >= ilen2 Then ilen = ilen2 Else ilen = iLen1

    strSim = stringSimilarity(Left(str1, ilen), Left(str2, ilen))

End Function

Sub WordLetterPairs(str As String, pairColl As Collection)
'Tokenize str into words, then add all letter pairs to pairColl

    Dim Words() As String
    Dim word, nPairs, pair As Integer

    Words = Split(str)

    If UBound(Words) < 0 Then
        Set pairColl = Nothing
        Exit Sub
    End If

    For word = 0 To UBound(Words)
        nPairs = Len(Words(word)) - 1
        If nPairs > 0 Then
            For pair = 1 To nPairs
                pairColl.Add Mid(Words(word), pair, 2)
            Next pair
        End If
    Next word

End Sub

Private Function SimilarityMetric(sPairs1 As Collection, sPairs2 As Collection) As Variant
'Helper function to calculate similarity metric given two collections of letter pairs.
'This function is designed to allow the pair collections to be set up separately as needed.
'NOTE: sPairs2 collection will be altered as pairs are removed; copy the collection
'if this is not the desired behavior.
'Also assumes that collections will be deallocated somewhere else

    Dim Intersect As Double
    Dim Union As Double
    Dim i, j As Long

    If sPairs1.Count = 0 Or sPairs2.Count = 0 Then
        SimilarityMetric = CVErr(xlErrNA)
        Exit Function
    End If

    Union = sPairs1.Count + sPairs2.Count
    Intersect = 0

    For i = 1 To sPairs1.Count
        For j = 1 To sPairs2.Count
            If StrComp(sPairs1(i), sPairs2(j)) = 0 Then
                Intersect = Intersect + 1
                sPairs2.Remove j
                Exit For
            End If
        Next j
    Next i

    SimilarityMetric = (2 * Intersect) / Union

End Function
bchatham
источник
@bchatham Это выглядит чрезвычайно полезно, но я новичок в VBA и немного оспариваю код. Можно ли опубликовать файл Excel, который использует ваш вклад? В моих целях я надеюсь использовать его для сопоставления похожих имен из одного столбца в Excel с примерно 1000 записями (выдержка здесь: dropbox.com/s/ofdliln9zxgi882/first-names-excerpt.xlsx ). Затем я буду использовать совпадения в качестве синонимов при поиске людей. (см. также softwarerecs.stackexchange.com/questions/38227/… )
bjornte
10

Я перевел алгоритм Саймона Уайта на PL / pgSQL. Это мой вклад.

<!-- language: lang-sql -->

create or replace function spt1.letterpairs(in p_str varchar) 
returns varchar  as 
$$
declare

    v_numpairs integer := length(p_str)-1;
    v_pairs varchar[];

begin

    for i in 1 .. v_numpairs loop
        v_pairs[i] := substr(p_str, i, 2);
    end loop;

    return v_pairs;

end;
$$ language 'plpgsql';

--===================================================================

create or replace function spt1.wordletterpairs(in p_str varchar) 
returns varchar as
$$
declare
    v_allpairs varchar[];
    v_words varchar[];
    v_pairsinword varchar[];
begin
    v_words := regexp_split_to_array(p_str, '[[:space:]]');

    for i in 1 .. array_length(v_words, 1) loop
        v_pairsinword := spt1.letterpairs(v_words[i]);

        if v_pairsinword is not null then
            for j in 1 .. array_length(v_pairsinword, 1) loop
                v_allpairs := v_allpairs || v_pairsinword[j];
            end loop;
        end if;

    end loop;


    return v_allpairs;
end;
$$ language 'plpgsql';

--===================================================================

create or replace function spt1.arrayintersect(ANYARRAY, ANYARRAY)
returns anyarray as 
$$
    select array(select unnest($1) intersect select unnest($2))
$$ language 'sql';

--===================================================================

create or replace function spt1.comparestrings(in p_str1 varchar, in p_str2 varchar)
returns float as
$$
declare
    v_pairs1 varchar[];
    v_pairs2 varchar[];
    v_intersection integer;
    v_union integer;
begin
    v_pairs1 := wordletterpairs(upper(p_str1));
    v_pairs2 := wordletterpairs(upper(p_str2));
    v_union := array_length(v_pairs1, 1) + array_length(v_pairs2, 1); 

    v_intersection := array_length(arrayintersect(v_pairs1, v_pairs2), 1);

    return (2.0 * v_intersection / v_union);
end;
$$ language 'plpgsql'; 
fabiolimace
источник
Работает на моем PostgreSQL, который не поддерживает plruby! Спасибо!
hostnik
Спасибо! Как бы вы сделали это в Oracle SQL?
olovholm
Этот порт неверен. Точную строку не вернуть 1.
Брэндон
9

Метрики сходства строк содержат обзор многих различных метрик, используемых при сравнении строк (в Википедии также есть обзор). Большая часть этих метрик реализована в библиотеке симметрик .

Еще одним примером метрики, не включенной в данный обзор, является, например, расстояние сжатия (попытка приблизиться к сложности Колмогорова ), которое можно использовать для более длинных текстов, чем тот, который вы представили.

Вы могли бы также рассмотреть более широкий предмет Обработки естественного языка . Эти пакеты R могут быстро начать работу (или, по крайней мере, дать некоторые идеи).

И последнее изменение - поиск других вопросов по этой теме в SO, есть довольно много связанных вопросов.

анонимное
источник
9

Более быстрая версия алгоритма на PHP:

/**
 *
 * @param $str
 * @return mixed
 */
private static function wordLetterPairs ($str)
{
    $allPairs = array();

    // Tokenize the string and put the tokens/words into an array

    $words = explode(' ', $str);

    // For each word
    for ($w = 0; $w < count($words); $w ++) {
        // Find the pairs of characters
        $pairsInWord = self::letterPairs($words[$w]);

        for ($p = 0; $p < count($pairsInWord); $p ++) {
            $allPairs[$pairsInWord[$p]] = $pairsInWord[$p];
        }
    }

    return array_values($allPairs);
}

/**
 *
 * @param $str
 * @return array
 */
private static function letterPairs ($str)
{
    $numPairs = mb_strlen($str) - 1;
    $pairs = array();

    for ($i = 0; $i < $numPairs; $i ++) {
        $pairs[$i] = mb_substr($str, $i, 2);
    }

    return $pairs;
}

/**
 *
 * @param $str1
 * @param $str2
 * @return float
 */
public static function compareStrings ($str1, $str2)
{
    $pairs1 = self::wordLetterPairs(mb_strtolower($str1));
    $pairs2 = self::wordLetterPairs(mb_strtolower($str2));


    $union = count($pairs1) + count($pairs2);

    $intersection = count(array_intersect($pairs1, $pairs2));

    return (2.0 * $intersection) / $union;
}

Для данных я имел (приблизительно 2300 сравнений) У меня было время работы 0.58sec с Игаль Алкон раствора по сравнению с 0.35sec с моим.

Энди
источник
9

Версия в красивой Scala:

  def pairDistance(s1: String, s2: String): Double = {

    def strToPairs(s: String, acc: List[String]): List[String] = {
      if (s.size < 2) acc
      else strToPairs(s.drop(1),
        if (s.take(2).contains(" ")) acc else acc ::: List(s.take(2)))
    }

    val lst1 = strToPairs(s1.toUpperCase, List())
    val lst2 = strToPairs(s2.toUpperCase, List())

    (2.0 * lst2.intersect(lst1).size) / (lst1.size + lst2.size)

  }
Ignobilis
источник
6

Вот версия R:

get_bigrams <- function(str)
{
  lstr = tolower(str)
  bigramlst = list()
  for(i in 1:(nchar(str)-1))
  {
    bigramlst[[i]] = substr(str, i, i+1)
  }
  return(bigramlst)
}

str_similarity <- function(str1, str2)
{
   pairs1 = get_bigrams(str1)
   pairs2 = get_bigrams(str2)
   unionlen  = length(pairs1) + length(pairs2)
   hit_count = 0
   for(x in 1:length(pairs1)){
        for(y in 1:length(pairs2)){
            if (pairs1[[x]] == pairs2[[y]])
                hit_count = hit_count + 1
        }
   }
   return ((2.0 * hit_count) / unionlen)
}
Rainer
источник
Этот алгоритм лучше, но довольно медленный для больших данных. Я имею в виду, если нужно сравнить 10000 слов с 15000 другими словами, это слишком медленно. Можем ли мы увеличить его производительность с точки зрения скорости ??
indra_patil
6

POSTING ответ Марзагана в в C99, вдохновленный эти алгоритмы

double dice_match(const char *string1, const char *string2) {

    //check fast cases
    if (((string1 != NULL) && (string1[0] == '\0')) || 
        ((string2 != NULL) && (string2[0] == '\0'))) {
        return 0;
    }
    if (string1 == string2) {
        return 1;
    }

    size_t strlen1 = strlen(string1);
    size_t strlen2 = strlen(string2);
    if (strlen1 < 2 || strlen2 < 2) {
        return 0;
    }

    size_t length1 = strlen1 - 1;
    size_t length2 = strlen2 - 1;

    double matches = 0;
    int i = 0, j = 0;

    //get bigrams and compare
    while (i < length1 && j < length2) {
        char a[3] = {string1[i], string1[i + 1], '\0'};
        char b[3] = {string2[j], string2[j + 1], '\0'};
        int cmp = strcmpi(a, b);
        if (cmp == 0) {
            matches += 2;
        }
        i++;
        j++;
    }

    return matches / (length1 + length2);
}

Некоторые тесты, основанные на оригинальной статье :

#include <stdio.h>

void article_test1() {
    char *string1 = "FRANCE";
    char *string2 = "FRENCH";
    printf("====%s====\n", __func__);
    printf("%2.f%% == 40%%\n", dice_match(string1, string2) * 100);
}


void article_test2() {
    printf("====%s====\n", __func__);
    char *string = "Healed";
    char *ss[] = {"Heard", "Healthy", "Help",
                  "Herded", "Sealed", "Sold"};
    int correct[] = {44, 55, 25, 40, 80, 0};
    for (int i = 0; i < 6; ++i) {
        printf("%2.f%% == %d%%\n", dice_match(string, ss[i]) * 100, correct[i]);
    }
}

void multicase_test() {
    char *string1 = "FRaNcE";
    char *string2 = "fREnCh";
    printf("====%s====\n", __func__);
    printf("%2.f%% == 40%%\n", dice_match(string1, string2) * 100);

}

void gg_test() {
    char *string1 = "GG";
    char *string2 = "GGGGG";
    printf("====%s====\n", __func__);
    printf("%2.f%% != 100%%\n", dice_match(string1, string2) * 100);
}


int main() {
    article_test1();
    article_test2();
    multicase_test();
    gg_test();

    return 0;
}
скрипты
источник
5

Основываясь на удивительной версии C # от Michael La Voie, согласно просьбе сделать это методом расширения, вот что я придумал. Основное преимущество такой работы заключается в том, что вы можете сортировать общий список по процентному совпадению. Например, предположим, что в вашем объекте есть строковое поле с именем «Город». Пользователь ищет "Честер", и вы хотите, чтобы результаты возвращались в порядке убывания соответствия. Например, вы хотите, чтобы буквальные совпадения Честера отображались до Рочестера. Для этого добавьте два новых свойства к вашему объекту:

    public string SearchText { get; set; }
    public double PercentMatch
    {
        get
        {
            return City.ToUpper().PercentMatchTo(this.SearchText.ToUpper());
        }
    }

Затем на каждом объекте установите SearchText на то, что искал пользователь. Затем вы можете легко отсортировать что-то вроде:

    zipcodes = zipcodes.OrderByDescending(x => x.PercentMatch);

Вот небольшая модификация, чтобы сделать это методом расширения:

    /// <summary>
    /// This class implements string comparison algorithm
    /// based on character pair similarity
    /// Source: http://www.catalysoft.com/articles/StrikeAMatch.html
    /// </summary>
    public static double PercentMatchTo(this string str1, string str2)
    {
        List<string> pairs1 = WordLetterPairs(str1.ToUpper());
        List<string> pairs2 = WordLetterPairs(str2.ToUpper());

        int intersection = 0;
        int union = pairs1.Count + pairs2.Count;

        for (int i = 0; i < pairs1.Count; i++)
        {
            for (int j = 0; j < pairs2.Count; j++)
            {
                if (pairs1[i] == pairs2[j])
                {
                    intersection++;
                    pairs2.RemoveAt(j);//Must remove the match to prevent "GGGG" from appearing to match "GG" with 100% success

                    break;
                }
            }
        }

        return (2.0 * intersection) / union;
    }

    /// <summary>
    /// Gets all letter pairs for each
    /// individual word in the string
    /// </summary>
    /// <param name="str"></param>
    /// <returns></returns>
    private static List<string> WordLetterPairs(string str)
    {
        List<string> AllPairs = new List<string>();

        // Tokenize the string and put the tokens/words into an array
        string[] Words = Regex.Split(str, @"\s");

        // For each word
        for (int w = 0; w < Words.Length; w++)
        {
            if (!string.IsNullOrEmpty(Words[w]))
            {
                // Find the pairs of characters
                String[] PairsInWord = LetterPairs(Words[w]);

                for (int p = 0; p < PairsInWord.Length; p++)
                {
                    AllPairs.Add(PairsInWord[p]);
                }
            }
        }

        return AllPairs;
    }

    /// <summary>
    /// Generates an array containing every 
    /// two consecutive letters in the input string
    /// </summary>
    /// <param name="str"></param>
    /// <returns></returns>
    private static  string[] LetterPairs(string str)
    {
        int numPairs = str.Length - 1;

        string[] pairs = new string[numPairs];

        for (int i = 0; i < numPairs; i++)
        {
            pairs[i] = str.Substring(i, 2);
        }

        return pairs;
    }
Фрэнк Рундац
источник
Я думаю, вам было бы лучше использовать bool isCaseSensitive со значением по умолчанию false - даже если это правда, реализация намного чище
Джордан
5

Моя реализация JavaScript принимает строку или массив строк и необязательный этаж (этаж по умолчанию равен 0,5). Если вы передадите ей строку, она вернет истину или ложь в зависимости от того, будет ли показатель сходства строки больше или равен полу. Если вы передадите ему массив строк, он вернет массив тех строк, у которых показатель сходства больше или равен полу, отсортированный по счету.

Примеры:

'Healed'.fuzzy('Sealed');      // returns true
'Healed'.fuzzy('Help');        // returns false
'Healed'.fuzzy('Help', 0.25);  // returns true

'Healed'.fuzzy(['Sold', 'Herded', 'Heard', 'Help', 'Sealed', 'Healthy']);
// returns ["Sealed", "Healthy"]

'Healed'.fuzzy(['Sold', 'Herded', 'Heard', 'Help', 'Sealed', 'Healthy'], 0);
// returns ["Sealed", "Healthy", "Heard", "Herded", "Help", "Sold"]

Вот:

(function(){
  var default_floor = 0.5;

  function pairs(str){
    var pairs = []
      , length = str.length - 1
      , pair;
    str = str.toLowerCase();
    for(var i = 0; i < length; i++){
      pair = str.substr(i, 2);
      if(!/\s/.test(pair)){
        pairs.push(pair);
      }
    }
    return pairs;
  }

  function similarity(pairs1, pairs2){
    var union = pairs1.length + pairs2.length
      , hits = 0;

    for(var i = 0; i < pairs1.length; i++){
      for(var j = 0; j < pairs2.length; j++){
        if(pairs1[i] == pairs2[j]){
          pairs2.splice(j--, 1);
          hits++;
          break;
        }
      }
    }
    return 2*hits/union || 0;
  }

  String.prototype.fuzzy = function(strings, floor){
    var str1 = this
      , pairs1 = pairs(this);

    floor = typeof floor == 'number' ? floor : default_floor;

    if(typeof(strings) == 'string'){
      return str1.length > 1 && strings.length > 1 && similarity(pairs1, pairs(strings)) >= floor || str1.toLowerCase() == strings.toLowerCase();
    }else if(strings instanceof Array){
      var scores = {};

      strings.map(function(str2){
        scores[str2] = str1.length > 1 ? similarity(pairs1, pairs(str2)) : 1*(str1.toLowerCase() == str2.toLowerCase());
      });

      return strings.filter(function(str){
        return scores[str] >= floor;
      }).sort(function(a, b){
        return scores[b] - scores[a];
      });
    }
  };
})();
gruppler
источник
1
Ошибка / опечатка! for(var j = 0; j < pairs1.length; j++){должно бытьfor(var j = 0; j < pairs2.length; j++){
Searle
3

Алгоритм коэффициента кости (ответ Саймона Уайта / Марзагао) реализован в Ruby в методе pair_distance_s Similar в геме amatch.

https://github.com/flori/amatch

Этот драгоценный камень также содержит реализации ряда приближенных алгоритмов сопоставления и сравнения строк: расстояние редактирования Левенштейна, расстояние редактирования продавцов, расстояние Хемминга, самая длинная длина общей подпоследовательности, самая длинная длина общей подстроки, метрика парного расстояния, метрика Яро-Винклера ,

s01ipsist
источник
2

Версия на Haskell - не стесняйтесь предлагать правки, потому что я не много сделал на Haskell.

import Data.Char
import Data.List

-- Convert a string into words, then get the pairs of words from that phrase
wordLetterPairs :: String -> [String]
wordLetterPairs s1 = concat $ map pairs $ words s1

-- Converts a String into a list of letter pairs.
pairs :: String -> [String]
pairs [] = []
pairs (x:[]) = []
pairs (x:ys) = [x, head ys]:(pairs ys)

-- Calculates the match rating for two strings
matchRating :: String -> String -> Double
matchRating s1 s2 = (numberOfMatches * 2) / totalLength
  where pairsS1 = wordLetterPairs $ map toLower s1
        pairsS2 = wordLetterPairs $ map toLower s2
        numberOfMatches = fromIntegral $ length $ pairsS1 `intersect` pairsS2
        totalLength = fromIntegral $ length pairsS1 + length pairsS2
matthewpalmer
источник
2

Clojure:

(require '[clojure.set :refer [intersection]])

(defn bigrams [s]
  (->> (split s #"\s+")
       (mapcat #(partition 2 1 %))
       (set)))

(defn string-similarity [a b]
  (let [a-pairs (bigrams a)
        b-pairs (bigrams b)
        total-count (+ (count a-pairs) (count b-pairs))
        match-count (count (intersection a-pairs b-pairs))
        similarity (/ (* 2 match-count) total-count)]
    similarity))
Шон Леброн
источник
1

Как насчет расстояния Левенштейна, разделенного на длину первой строки (или, альтернативно, на мою минимальную / максимальную / среднюю длину обеих строк)? Это сработало для меня до сих пор.

tehvan
источник
Однако, если процитировать другой пост на эту тему, то, что он возвращает, часто бывает «ошибочным». Он оценивает «эхо» как весьма похожее на «собаку».
Xyene
@Nox: часть этого ответа, разделенная на длину первой строки, имеет большое значение. Кроме того, это работает лучше, чем широко известный алгоритм Dice для опечаток и ошибок транспонирования, и даже для общих сопряжений (например, рассмотрим сравнение «плавать» и «плавать»).
Логан Пикап
1

Эй, ребята, я попробовал это в javascript, но я новичок в этом, кто-нибудь знает более быстрые способы сделать это?

function get_bigrams(string) {
    // Takes a string and returns a list of bigrams
    var s = string.toLowerCase();
    var v = new Array(s.length-1);
    for (i = 0; i< v.length; i++){
        v[i] =s.slice(i,i+2);
    }
    return v;
}

function string_similarity(str1, str2){
    /*
    Perform bigram comparison between two strings
    and return a percentage match in decimal form
    */
    var pairs1 = get_bigrams(str1);
    var pairs2 = get_bigrams(str2);
    var union = pairs1.length + pairs2.length;
    var hit_count = 0;
    for (x in pairs1){
        for (y in pairs2){
            if (pairs1[x] == pairs2[y]){
                hit_count++;
            }
        }
    }
    return ((2.0 * hit_count) / union);
}


var w1 = 'Healed';
var word =['Heard','Healthy','Help','Herded','Sealed','Sold']
for (w2 in word){
    console.log('Healed --- ' + word[w2])
    console.log(string_similarity(w1,word[w2]));
}
user779420
источник
Эта реализация неверна. Функция bigram разрывается для ввода длины 0. Метод string_simility неправильно разрывается во втором цикле, что может привести к многократному подсчету пар, что приведет к возвращаемому значению, превышающему 100%. И вы также забыли объявить xи y, и вы не должны проходить через циклы, используя for..in..цикл (используйте for(..;..;..)вместо этого).
Роб W
1

Вот еще одна версия Сходства, основанная на индексе Серенсена – Дайса (ответ Марзагао), написанная на C ++ 11:

/*
 * Similarity based in Sørensen–Dice index.
 *
 * Returns the Similarity between _str1 and _str2.
 */
double similarity_sorensen_dice(const std::string& _str1, const std::string& _str2) {
    // Base case: if some string is empty.
    if (_str1.empty() || _str2.empty()) {
        return 1.0;
    }

    auto str1 = upper_string(_str1);
    auto str2 = upper_string(_str2);

    // Base case: if the strings are equals.
    if (str1 == str2) {
        return 0.0;
    }

    // Base case: if some string does not have bigrams.
    if (str1.size() < 2 || str2.size() < 2) {
        return 1.0;
    }

    // Extract bigrams from str1
    auto num_pairs1 = str1.size() - 1;
    std::unordered_set<std::string> str1_bigrams;
    str1_bigrams.reserve(num_pairs1);
    for (unsigned i = 0; i < num_pairs1; ++i) {
        str1_bigrams.insert(str1.substr(i, 2));
    }

    // Extract bigrams from str2
    auto num_pairs2 = str2.size() - 1;
    std::unordered_set<std::string> str2_bigrams;
    str2_bigrams.reserve(num_pairs2);
    for (unsigned int i = 0; i < num_pairs2; ++i) {
        str2_bigrams.insert(str2.substr(i, 2));
    }

    // Find the intersection between the two sets.
    int intersection = 0;
    if (str1_bigrams.size() < str2_bigrams.size()) {
        const auto it_e = str2_bigrams.end();
        for (const auto& bigram : str1_bigrams) {
            intersection += str2_bigrams.find(bigram) != it_e;
        }
    } else {
        const auto it_e = str1_bigrams.end();
        for (const auto& bigram : str2_bigrams) {
            intersection += str1_bigrams.find(bigram) != it_e;
        }
    }

    // Returns similarity coefficient.
    return (2.0 * intersection) / (num_pairs1 + num_pairs2);
}
chema989
источник
1

Я искал чистую рубиновую реализацию алгоритма, обозначенную ответом @ marzagao. К сожалению, ссылка, указанная @marzagao, не работает. В @ s01ipsist ответ, он указал рубин драгоценный камень amatch , где реализация не является в чистом рубина. Так что я Searchd немного и нашел драгоценный камень fuzzy_match который имеет чистую реализацию рубиновый (хотя это использование драгоценных камней amatch) на здесь . Я надеюсь, что это поможет кому-то, как я.

Энгр. Хасануззаман Сумон
источник