Почему этот код F # такой медленный?

127

Реализация Левенштейна на C # и F #. Версия C # в 10 раз быстрее для двух строк размером около 1500 символов. C #: 69 мс, F # 867 мс. Зачем? Насколько я могу судить, они делают то же самое? Не имеет значения, является ли это сборкой Release или Debug.

РЕДАКТИРОВАТЬ: Если кто-то придет сюда специально для реализации Edit Distance, он сломан. Рабочий код здесь .

C # :

private static int min3(int a, int b, int c)
{
   return Math.Min(Math.Min(a, b), c);
}

public static int EditDistance(string m, string n)
{
   var d1 = new int[n.Length];
   for (int x = 0; x < d1.Length; x++) d1[x] = x;
   var d0 = new int[n.Length];
   for(int i = 1; i < m.Length; i++)
   {
      d0[0] = i;
      var ui = m[i];
      for (int j = 1; j < n.Length; j++ )
      {
         d0[j] = 1 + min3(d1[j], d0[j - 1], d1[j - 1] + (ui == n[j] ? -1 : 0));
      }
      Array.Copy(d0, d1, d1.Length);
   }
   return d0[n.Length - 1];
}

F # :

let min3(a, b, c) = min a (min b c)

let levenshtein (m:string) (n:string) =
   let d1 = Array.init n.Length id
   let d0 = Array.create n.Length 0
   for i=1 to m.Length-1 do
      d0.[0] <- i
      let ui = m.[i]
      for j=1 to n.Length-1 do
         d0.[j] <- 1 + min3(d1.[j], d0.[j-1], d1.[j-1] + if ui = n.[j] then -1 else 0)
      Array.blit d0 0 d1 0 n.Length
   d0.[n.Length-1]
Роберт Джеппесен
источник
7
Какая разница в производительности при использовании inline?
Gradbot

Ответы:

202

Проблема в том, что min3функция скомпилирована как универсальная функция, которая использует универсальное сравнение (я думал, что это использует только IComparable, но на самом деле это более сложно - оно будет использовать структурное сравнение для типов F # и это довольно сложная логика).

> let min3(a, b, c) = min a (min b c);;
val min3 : 'a * 'a * 'a -> 'a when 'a : comparison

В версии C # функция не является универсальной (просто требуется int). Вы можете улучшить версию F #, добавив аннотации типов (чтобы получить то же, что и в C #):

let min3(a:int, b, c) = min a (min b c)

... или сделав min3as inline(в этом случае он будет специализирован intпри использовании):

let inline min3(a, b, c) = min a (min b c);;

Для случайной строки strдлиной 300 я получаю следующие числа:

> levenshtein str ("foo" + str);;
Real: 00:00:03.938, CPU: 00:00:03.900, GC gen0: 275, gen1: 1, gen2: 0
val it : int = 3

> levenshtein_inlined str ("foo" + str);;
Real: 00:00:00.068, CPU: 00:00:00.078, GC gen0: 0, gen1: 0, gen2: 0
val it : int = 3
Томаш Петричек
источник
1
Почему F # не компилирует min3 как функцию, которая принимает int? Во время компиляции он уже знает достаточно информации о типе для этого. Вот как это работало бы, если бы min3 была функцией-шаблоном C ++, поэтому я немного озадачен, почему F # этого не делает.
sashang
42
F # предполагает, что он должен быть как можно более универсальным, например, «для всех типов X, поддерживающих сравнение». inlineработает как шаблон C ++, который специализируется intна сайте вызова.
Брайан
13
Шаблоны C ++ ведут себя, по сути, как шаблоны F # inline. Причина, по которой поведение по умолчанию отличается, заключается в том, что оно основано на универсальных шаблонах .Net, которые обрабатываются средой выполнения (и, возможно, не так хороши для написания универсального числового кода). Однако использование поведения C ++ в F # приведет к раздуванию кода, потому что F # намного больше использует универсальные шаблоны.
Tomas Petricek
4
Семантика шаблона C ++ может привести к раздуванию кода даже в C ++, и отсутствие удобного способа переключения на использование механизма времени выполнения, чтобы избежать этого, временами вызывает проблемы. Однако боязнь раздувания кода обычно иррациональна - как правило, шаблоны C ++ работают хорошо.
Steve314
@ Steve314: Обычно этого легко избежать, рефакторинг всего кода, который не использует зависимый тип, чтобы код не дублировался для разных экземпляров.
ildjarn