Implementar glob Matcher

15

Implemente uma função de padrão e sequência a serem correspondidas; retorne true se o padrão corresponder à sequência inteira, caso contrário, false.

Nossa sintaxe de padrão glob é:

  • ? corresponde a qualquer caractere
  • + corresponde a um ou mais caracteres
  • * corresponde a zero ou mais caracteres
  • \ escapa

Regras:

  • Sem avaliação, sem conversão em expressão regular, sem chamar uma função global do sistema.
  • E / S não são necessárias: você pode simplesmente escrever uma função
  • Vitórias mais curtas

Exemplos:

glob('abc', 'abc') => true
glob('abc', 'abcdef') => false IMPORTANT!
glob('a??', 'aww') => true
glob('a*b', 'ab') => true
glob('a*b', 'agwijgwbgioeb') => true
glob('a*?', 'a') => false
glob('?*', 'def') => true
glob('5+', '5ggggg') => true
glob('+', '') => false
glob('a\*b', 'a*b') => true

Aqui está uma dica para começar: http://en.wikipedia.org/wiki/Backtracking

Ming-Tang
fonte
1
Posso sugerir uma tag adicional "correspondência de padrão"?
dmckee --- ex-moderador gatinho
1
Você poderia esclarecer o que quer dizer com "nenhuma função padrão"? Que você não pode chamar funções da biblioteca padrão? Como isso deveria funcionar?
sepp2k
Alguns exemplos de como escapar, por favor? ("\")
Eelvex 14/02/11

Respostas:

4

Golfscript - 82 caracteres

{1,\@n+:|;{:<;{:I)I|="\\+*?"[<]+?[{|=<={I))}*}I~{I\C}{}.{;}]=~}:C%}/{|>'*'-n=},}:g

Assume que não há novas linhas nas seqüências de caracteres. Retorna uma matriz vazia para false e uma matriz não vazia para true (consistente com a definição golfscript de true / false).

Esta é uma solução não recursiva (exceto por *s consecutivos ), que mantém uma lista das posições na cadeia de padrão ique pattern[0..i]corresponde string[0..cur].

Isso pode funcionar por um período muito longo. Você pode adicionar .&depois :C%para evitar isso.

Nabb
fonte
5

Haskell, 141 caracteres

c('\\':a:z)s=a&s>>=c z
c(a:z)s=a%s>>=c z
c[]s=[null s]
p&(a:z)|a==p=[z]
_&_=[]
'?'%(a:z)=[z]
'*'%a=a:'+'%a
'+'%(a:z)='*'%z
l%a=l&a
g=(or.).c

Funciona para todas as entradas, padrões e seqüências de caracteres. Manipula barra invertida no padrão como uma correspondência literal (o comportamento não foi especificado.)

Isso pode ser executado com o seguinte driver de teste:

main = do
    globtest "abc" "abc"    True
    globtest "abc" "abcdef" False
    globtest "a??" "aww"    True
    globtest "a*b" "ab"     True
    globtest "a*b" "agwijgwbgioeb" True
    globtest "a*?" "a"      False
    globtest "?*" "def"     True
    globtest "5+" "5ggggg"  True
    globtest "+" ""         False
    globtest "a\\*b" "a*b"  True
  where
    globtest p s e =
      if g p s == e
        then putStrLn "pass"
        else putStrLn$"fail: g " ++ show p ++ " " ++ show s ++ " /= " ++ show e

Atualização: escrevi uma postagem no blog sobre essa resposta em particular, pois acho que mostra bem como Haskell codifica o problema com tanta facilidade.


  • Editar: (181 -> 174) substituído de mpor operadores
  • Editar: (174 -> 151) alinhado remc
  • Edit: (151 -> 149) removeu uma opção gerada desnecessariamente no +caso
  • Edit: (149 -> 141) removeu uma cláusula desnecessária para %, que foi tratada por&
MtnViewMark
fonte
2

PHP - 275 243 caracteres

<?function g($P,$I){$o='array_shift';if(@$I[0]==="")return 0;for(;$P;$o($P)){$p=$P[0];if($p=='?'|$p=='+'&&@$N===$o($I))return 0;if($p=='+'|$p=='*'&&$I&&g($P,array_slice($I,1)))return 1;if(!strpos(" ?+*\\",$p)&&$p!==$o($I))return 0;}return!$I;}

Ungolfed:

<?php

function g($P,$I) {
        if ($I && $I[0] === "") return false;
        for(;$P;array_shift($P)) {
                $p = $P[0];
                if( $p == '?' || $p == '+') {
                        if (NULL === array_shift($I)) {
                                return false;
                        }
                }
                if( $p=='+' || $p=='*' ) {
                        if ($I && g($P, array_slice($I,1))) {
                                return true;
                        }
                }
                if (!strpos(" ?+*\\",$p) && $p !== array_shift($I)) {
                        return false;
                }
        }
        return !$I;
}

function my_glob($pattern,$subject) {
    return !!g(str_split($pattern),str_split($subject));
}
Arnaud Le Blanc
fonte
2

Python excessivamente verboso ( 384 367 caracteres)

t=lambda a:a[1:] 
h=lambda a:a[0] 
n=lambda p,s:s and(h(p)==h(s)and m(t(p),t(s))) 
def m(p,s): 
 if not p: 
  return not s 
 else: 
  return { 
   '?':lambda p,s:s and m(t(p),t(s)), 
   '+':lambda p,s:s and(m(p,t(s))or m(t(p),t(s))), 
   '*':lambda p,s:m(t(p),s)or(s and m(p,t(s))), 
   '\\':lambda p,s:n(t(p),s), 
  }.get(h(p),n)(p,s) 
glob=lambda p,s:not not m(p,s)

Não é o mais curto, mas é agradável e funcional. A coisa de ditado de despacho no meio poderia presumivelmente ser reescrita como uma disjunção sobre as (h(p) == '?') and (? lambda body)coisas de tipo. Definir esse operador h me custa alguns caracteres sem nenhum benefício, mas é bom ter uma palavra-chave para head.

Eu gostaria de ter uma rachadura no script de golfe mais tarde, se o tempo permitir.

edit: removido terceiro ramo desnecessário no caso '*' depois de ler a resposta ruby ​​do user300

roobs
fonte
2

Shorter Snappier Python 2.6 (272 caracteres)

golfed:

n=lambda p,s:p[0]==s[0]and m(p[1:],s[1:]) 
def m(p,s): 
 q,r,t,u=p[0],p[1:],s[0],s[1:] 
 return any((q=='?'and(t and m(r,u)),q=='+'and(t and(m(p,u)or m(r,u))),q=='*'and(m(r,s)or(t and m(p,u))),q=='\\'and n(r,s),q==t==0))or n(p,s) 
glob=lambda*a:m(*[list(x)+[0]for x in a])

ungolfed:

TERMINATOR = 0 

def unpack(a): 
    return a[0], a[1:] 

def terminated_string(s): 
    return list(s) + [TERMINATOR] 

def match_literal(p, s): 
    p_head, p_tail = unpack(p) 
    s_head, s_tail = unpack(s) 
    return p_head == s_head and match(p_tail, s_tail) 

def match(p, s): 
    p_head, p_tail = unpack(p) 
    s_head, s_tail = unpack(s) 
    return any(( 
        p_head == '?' and (s_head and match(p_tail, s_tail)), 
        p_head == '+' and (s_head and(match(p, s_tail) or match(p_tail, s_tail))), 
        p_head == '*' and (match(p_tail, s) or (s_head and match(p, s_tail))), 
        p_head == '\\' and match_literal(p_tail, s), 
        p_head == s_head == TERMINATOR, 
    )) or match_literal(p, s) 

def glob(p, s): 
    return match(terminated_string(p), terminated_string(s))

apresentando:

  • bagunça lógica avaliada preguiçosamente!
  • Cordas de estilo C!
  • idioma de comparação múltipla bonito!
  • muito feio!

agradeça à resposta do user300 por ilustrar como as coisas são simplificadas se você pode obter algum tipo de valor de terminador ao tirar a cabeça de uma string vazia.

gostaria que a descompactação da cabeça / cauda pudesse ser executada em linha durante a declaração dos argumentos de m. então m poderia ser um lambda, assim como seus amigos ne glob. python2 não pode fazer isso e, após algumas leituras, parece que python3 também não pode. ai.

teste:

test_cases = { 
    ('abc', 'abc') : True, 
    ('abc', 'abcdef') : False, 
    ('a??', 'aww') : True, 
    ('a*b', 'ab') : True, 
    ('a*b', 'aqwghfkjdfgshkfsfddsobbob') : True, 
    ('a*?', 'a') : False, 
    ('?*', 'def') : True, 
    ('5+', '5ggggg') : True, 
    ('+', '') : False, 
}   
for (p, s) in test_cases: 
    computed_result = glob(p, s) 
    desired_result = test_cases[(p, s)] 
    print '%s %s' % (p, s) 
    print '\tPASS' if (computed_result == desired_result) else '\tFAIL' 
roobs
fonte
2

Ruby - 199 171

g=->p,s{x=(b=->a{a[1..-1]})[p];y=s[0];w=b[s];v=p[0];_=->p,s{p[0]==y&&g[x,w]}
v==??? g[x,y&&w||s]:v==?+? y&&g[?*+x,w]:v==?*?
y&&g[p,w]||g[x,s]:v==?\\? _[x,s]:v ? _[p,s]:!y}

Ungolfed:

def glob(pattern, subject)
        b=->a{a[1..-1]}
        _=->p,s{ p[0]==s[0] && glob(b[p],b[s]) }
        ({
                ??=>->p,s { glob(b[p], s[0] ? b[s] : s) },
                ?+=>->p,s { s[0] && glob(?*+b[p], b[s]) },
                ?*=>->p,s { s[0] && glob(p,b[s]) || glob(b[p],s) },
                ?\\=>->p,s{ _[b[p],s] },
                nil=>->p,s{ !subject[0] }
        }[pattern[0]] || _)[pattern, subject]
end

Testes:

p glob('abc', 'abc')
p glob('abc', 'abcdef')
p glob('a??', 'aww')
p glob('a*b', 'ab')
p glob('a*b', 'agwijgwbgioeb')
p glob('a*?', 'a')
p glob('?*', 'def')
p glob('5+', '5ggggg')
p glob('+', '')

Inspirado pela resposta dos roobs

Arnaud Le Blanc
fonte
não sei nada sobre ruby, mas pelo seu código aprendi que o acesso a índices fora dos limites é nulo. então, ao pressionar uma string vazia, o valor nulo pode ser usado como símbolo de terminador de string. Estilo C! bacana! Acredito que possa ser imitado no pitão, passando cada cadeia de entrada por meio delambda s : list(s)+[None]
roobs
Pelo que parece, Ruby incorporou a correspondência de padrões. Isso certamente é útil para esse tipo de problema.
Jonathan M Davis
Na verdade, os ??caracteres são literais, =>são separadores de chave / valor no Ruby Hashes e ->iniciam um lambda :-) ( { ?? => ->{...} }é um hash com chave "?"e um lambda como valor). :-)
Arnaud Le Blanc
2

Função C - 178 caracteres necessários

Compilado com o GCC, isso não produz avisos.

#define g glob
int g(p,s)const char*p,*s;{return*p==42?g(p+1,s)||(*s&&g(p,
s+1)):*p==43?*s&&(g(p+1,++s)||g(p,s)):*p==63?*s&&g(p+1,s+1)
:*p==92?*++p&&*s++==*p++&&g(p,s):*s==*p++&&(!*s++||g(p,s));}
#undef g

A primeira e a última linha não estão incluídas na contagem de caracteres. Eles são fornecidos apenas por conveniência.

Explodir:

int glob(p,s)
const char *p, *s; /* K&R-style function declaration */
{
    return
        *p=='*'  ? glob(p+1,s) || (*s && glob(p,s+1)) :
        *p=='+'  ? *s && (glob(p+1,++s) || glob(p,s)) :
        *p=='?'  ? *s && glob(p+1,s+1)                :
        *p=='\\' ? *++p && *s++==*p++ && glob(p,s)    :
        *s==*p++ && (!*s++ || glob(p,s));
}
Joey Adams
fonte
2

JavaScript - 259 caracteres

Minha implementação é muito recursiva; portanto, a pilha transbordará se um padrão extremamente longo for usado. Ignorando o sinal de mais (que eu poderia ter otimizado, mas optou por não simplificar), um nível de recursão é usado para cada token.

glob=function f(e,c){var b=e[0],d=e.slice(1),g=c.length;if(b=="+")return f("?*"+d,c);if(b=="?")b=g;else if(b=="*"){for(b=0;b<=g;++b)if(f(d,c.slice(b)))return 1;return 0}else{if(b=="\\"){b=e[1];d=e.slice(2)}b=b==c[0]}return b&&(!d.length&&!g||f(d,c.slice(1)))}

Às vezes, a função retorna um número em vez de um booleano. Se isso for um problema, você pode usá-lo como !!glob(pattern, str).


Ungolfed (unminified, em vez disso) para servir como um recurso útil:

function glob(pattern, str) {
    var head = pattern[0], tail = pattern.slice(1), strLen = str.length, matched;
    if(head == '+') {
        // The plus is really just syntactic sugar.
        return glob('?*' + tail, str);
    }
    if(head == '?') { // Match any single character
        matched = strLen;
    } else if(head == '*') { // Match zero or more characters.
        // N.B. I reuse the variable matched to save space.
        for(matched = 0; matched <= strLen; ++matched) {
            if(glob(tail, str.slice(matched))) {
                return 1;
            }
        }
        return 0;
    } else { // Match a literal character
        if(head == '\\') { // Handle escaping
            head = pattern[1];
            tail = pattern.slice(2);
        }
        matched = head == str[0];
    }
    return matched && ((!tail.length && !strLen) || glob(tail, str.slice(1)));
}

Observe que a indexação em caracteres de uma sequência de caracteres como para elementos de matriz não faz parte do padrão de linguagem mais antigo (ECMAScript 3), portanto, pode não funcionar em navegadores mais antigos.

PleaseStand
fonte
1

Python (454 caracteres)

def glob(p,s):
  ps,pns=[0],[]
  for ch in s:
    for i in ps:
      if i<0:
        pns+=[i]
        if i>-len(p) and p[-i]==ch:pns+=[-i]
      elif i<len(p):
        pc=p[i]
        d={'?':[i+1],'+':[i,-i-1],'*':[i+1,-i-1]}
        if pc in d:pns+=d[pc]
        else:
          if pc=='\\':pc=p[i+1]
          if pc==ch:pns+=[i+1]
    ps,pns=pns,[]
  if (s or p in '*') and (len(p) in ps or -len(p)+1 in ps or -len(p) in ps): return True
  return False
Hoa Long Tam
fonte
1

D: 363 caracteres

bool glob(S)(S s,S t){alias front f;alias popFront p;alias empty e;while(!e(s)&&!e(t)){switch(f(s)){case'+':if(e(t))return false;p(t);case'*':p(s);if(e(s))return true;if(f(s)!='+'&&f(s)!='*'){for(;!e(t);p(t)){if(f(s)==f(t)&&glob(s,t))return true;}}break;case'\\':p(s);if(e(s))return false;default:if(f(s)!=f(s))return false;case'?':p(s);p(t);}}return e(s)&&e(t);}

Mais legivelmente:

bool glob(S)(S s, S t)
{
    alias front f;
    alias popFront p;
    alias empty e;

    while(!e(s) && !e(t))
    {
        switch(f(s))
        {
            case '+':
                if(e(t))
                    return false;

                p(t);
            case '*':
                p(s);

                if(e(s))
                    return true;

                if(f(s) != '+' && f(s) != '*')
                {
                    for(; !e(t); p(t))
                    {
                        if(f(s) == f(t) && glob(s, t))
                            return true;
                    }
                }

                break;
            case '\\':
                p(s);

                if(e(s))
                    return false;
            default:
                if(f(s) != f(s))
                    return false;
            case '?':
                p(s);
                p(t);
        }
    }

    return e(s) && e(t);
}
Jonathan M Davis
fonte
1

golfscript

{{;;}2$+}:x;{x if}:a;{x\if}:o;{1$1$}:b;{(@(@={\m}a}:r;{b(63={\({\m}a}a{b(43={\({\b m{'+'\+m}o}a}a{b(42={b m{\({\'*'\+m}a}o}a{b(92={r}a{b 0=0=\0=0=*{r}o}o}o}o}o}:m;{[0]+\[0]+m}:glob;

é construído a partir de funções que consomem dois argumentos da pilha, se ep, e produzem um único valor de retorno booleano. há um pouco de confusão para torná-lo compatível com os operadores preguiçosos e preguiçosos. Eu realmente duvido que essa abordagem esteja perto do ideal, ou mesmo na direção certa.

há também alguns momentos divertidos e estúpidos, como destacar um '*'padrão, consumir o '*'em uma comparação, apenas para perceber que o ramo subsequente não corresponde. para descer pelo outro ramo, precisamos do padrão com o '*'na frente, mas consumimos esse padrão original quando acionamos o botão '*'e consumimos o '*', de modo a obter o padrão novamente, carregamos uma nova e brilhante corda constante '*'e coloque-o no lugar. fica ainda mais feio porque, por algum motivo, a correspondência de caracteres precisa ser feita com valores ascii, mas o pré-retorno à string precisa de strings.

menos golfscript golfed

{[0]+}:terminate_string;
{{;;}2$+if}:_and;
{{;;}2$+\if}:_or;
{1$1$}:branch;
{(@(@={\match}_and}:match_literal;
{0=0=\0=0=*}:match_terminator;
{(92={match_literal}_and}:match_escape;
{(63={\({\match}_and}_and}:match_wildcard;
{(43={\({\branch match{'+'\+match}_or}_and}_and}:match_wildcard_plus;
{(42={branch match{\({\'*'\+match}_and}_or}_and}:match_wildcard_star;
{branch match_wildcard{branch match_wildcard_plus{branch match_wildcard_star{branch match_escape{branch match_terminator{match_literal}_or}_or}_or}_or}_or}:match;
{terminate_string\terminate_string match}:glob;

testes

{2$2$glob = "test passed: " "test FAILED: " if print \ print ' ; ' print print "\n" print}:test_case;

'abc' 'abc' 1 test_case
'abc' 'abcdef' 0 test_case
'a??' 'aww' 1 test_case
'a*b' 'ab' 1 test_case
'a*b' 'agwijgwbgioeb' 1 test_case
'a*?' 'a' 0 test_case
'?*' 'def' 1 test_case
'5+' '5ggggg' 1 test_case
'+' '' 0 test_case
roobs
fonte
1

C # (251 caracteres)

static bool g(string p,string i){try{char c;System.Func<string,string>s=t=>t.Remove(0,1);return p==i||((c=p[0])==92?p[1]==i[0]&g(s(s(p)),s(i)):c==42?g(s(p),i)||g(p,s(i)):c==43?g(s(p),s(i))|g(p,s(i)):g(s(p),s(i))&(c==i[0]|c==63));}catch{return false;}}

Um pouco mais legível:

static bool g(string p /* pattern */, string i /* input string */)
{
    // Instead of checking whether we’ve reached the end of the string, just
    // catch the out-of-range exception thrown by the string indexing operator
    try
    {
        char c;

        // .Remove(0,1) is shorter than .Substring(1)...
        System.Func<string, string> s = t => t.Remove(0, 1);

        // Note that every glob matches itself!† This saves us having to write
        // “(p=="" & i=="")” which would be much longer — very convenient!
        return p == i || (

            // backslash escapes
            (c = p[0]) == 92 ? p[1] == i[0] & g(s(s(p)), s(i)) :

            // '*' — need “||” so that s(i) doesn’t throw if the first part is true
            c == 42 ? g(s(p), i) || g(p, s(i)) :

            // '+'
            c == 43 ? g(s(p), s(i)) | g(p, s(i)) :

            // '?' or any other character
            g(s(p), s(i)) & (c == i[0] | c == 63)
        );
    }

    // If we ever access beyond the end of the string, we know the glob doesn’t match
    catch { return false; }
}

Eu sei, eu sei ... exceto pelos globs que contêm a barra invertida. O que é realmente lamentável. Caso contrário, teria sido realmente inteligente. :(

Timwi
fonte