Uma implementação de Levenshtein em C # e F #. A versão C # é 10 vezes mais rápida para duas seqüências de caracteres de cerca de 1500 caracteres. C #: 69 ms, F # 867 ms. Por quê? Até onde eu sei, eles fazem exatamente a mesma coisa? Não importa se é uma versão ou compilação de depuração.
EDIT: Se alguém vier aqui procurando especificamente pela implementação da Distância de Edição, ela estará corrompida. O código de trabalho está aqui .
C # :
private static int min3(int a, int b, int c)
{
return Math.Min(Math.Min(a, b), c);
}
public static int EditDistance(string m, string n)
{
var d1 = new int[n.Length];
for (int x = 0; x < d1.Length; x++) d1[x] = x;
var d0 = new int[n.Length];
for(int i = 1; i < m.Length; i++)
{
d0[0] = i;
var ui = m[i];
for (int j = 1; j < n.Length; j++ )
{
d0[j] = 1 + min3(d1[j], d0[j - 1], d1[j - 1] + (ui == n[j] ? -1 : 0));
}
Array.Copy(d0, d1, d1.Length);
}
return d0[n.Length - 1];
}
F # :
let min3(a, b, c) = min a (min b c)
let levenshtein (m:string) (n:string) =
let d1 = Array.init n.Length id
let d0 = Array.create n.Length 0
for i=1 to m.Length-1 do
d0.[0] <- i
let ui = m.[i]
for j=1 to n.Length-1 do
d0.[j] <- 1 + min3(d1.[j], d0.[j-1], d1.[j-1] + if ui = n.[j] then -1 else 0)
Array.blit d0 0 d1 0 n.Length
d0.[n.Length-1]
c#
performance
f#
inline
Robert Jeppesen
fonte
fonte
Respostas:
O problema é que a
min3
função é compilada como uma função genérica que usa comparação genérica (eu pensei que isso usa apenasIComparable
, mas na verdade é mais complicado - usaria comparação estrutural para tipos de F # e é uma lógica bastante complexa).Na versão C #, a função não é genérica (é necessária apenas
int
). Você pode melhorar a versão do F # adicionando anotações de tipo (para obter a mesma coisa que em C #):... ou fazendo
min3
comoinline
(nesse caso, ele será especializadoint
quando usado):Para uma sequência aleatória
str
de comprimento 300, recebo os seguintes números:fonte
inline
funciona como um modelo C ++, que seria especializado comint
base no site de chamada.inline
. A razão pela qual o comportamento padrão é diferente é porque ele se baseia em genéricos .Net que são manipulados pelo tempo de execução (e, sem dúvida, não são tão bons para escrever código numérico genérico). No entanto, o uso do comportamento C ++ no F # levaria ao inchaço do código, porque o F # usa muito mais os genéricos.