Como posso contar o número de correspondências para uma regex?

97

Digamos que eu tenha uma string que contém isto:

HelloxxxHelloxxxHello

Eu compilo um padrão para procurar 'Olá'

Pattern pattern = Pattern.compile("Hello");
Matcher matcher = pattern.matcher("HelloxxxHelloxxxHello");

Deve encontrar três correspondências. Como posso contar quantas partidas existiram?

Eu tentei vários loops e usando o matcher.groupCount()mas não funcionou.

Tony
fonte
Alguma chance de sua string de pesquisa ter ocorrências sobrepostas na string de entrada?
aioobe

Respostas:

177

matcher.find()não encontra todas as correspondências, apenas a próxima correspondência.

Solução para Java 9+

long matches = matcher.results().count();

Solução para Java 8 e anterior

Você terá que fazer o seguinte. ( A partir do Java 9, há uma solução mais agradável )

int count = 0;
while (matcher.find())
    count++;

Aliás, matcher.groupCount()é algo completamente diferente.

Exemplo completo :

import java.util.regex.*;

class Test {
    public static void main(String[] args) {
        String hello = "HelloxxxHelloxxxHello";
        Pattern pattern = Pattern.compile("Hello");
        Matcher matcher = pattern.matcher(hello);

        int count = 0;
        while (matcher.find())
            count++;

        System.out.println(count);    // prints 3
    }
}

Tratamento de correspondências sobrepostas

Ao contar as correspondências de aano aaaasnippet acima, você obterá 2 .

aaaa
aa
  aa

Para obter 3 correspondências, ou seja, este comportamento:

aaaa
aa
 aa
  aa

Você deve pesquisar uma correspondência no índice da <start of last match> + 1seguinte maneira:

String hello = "aaaa";
Pattern pattern = Pattern.compile("aa");
Matcher matcher = pattern.matcher(hello);

int count = 0;
int i = 0;
while (matcher.find(i)) {
    count++;
    i = matcher.start() + 1;
}

System.out.println(count);    // prints 3
aioobe
fonte
Contando o número de correspondências que ocorrem na string. O método java.util.regex.Matcher.region (int start, int end) define os limites da região deste matcher. A região é a parte da sequência de entrada que será pesquisada para encontrar uma correspondência. A invocação desse método redefine o matcher e, em seguida, define a região para iniciar no índice especificado pelo parâmetro start e terminar no índice especificado pelo parâmetro end. Experimente isso. while(matcher.find()){ matcher.region(matcher.end()-1, str.length()); count++; }
Mukesh Kumar Gupta
17

Isso deve funcionar para correspondências que podem se sobrepor:

public static void main(String[] args) {
    String input = "aaaaaaaa";
    String regex = "aa";
    Pattern pattern = Pattern.compile(regex);
    Matcher matcher = pattern.matcher(input);
    int from = 0;
    int count = 0;
    while(matcher.find(from)) {
        count++;
        from = matcher.start() + 1;
    }
    System.out.println(count);
}
Mary-Anne Wolf
fonte
5

No Java 9, você pode usar o fluxo fornecido por Matcher.results()

long matches = matcher.results().count();
vng trọng hồ
fonte
3

Se você quiser usar fluxos Java 8 e for alérgico a whileloops, pode tentar o seguinte:

public static int countPattern(String references, Pattern referencePattern) {
    Matcher matcher = referencePattern.matcher(references);
    return Stream.iterate(0, i -> i + 1)
            .filter(i -> !matcher.find())
            .findFirst()
            .get();
}

Isenção de responsabilidade: isso só funciona para partidas disjuntas.

Exemplo:

public static void main(String[] args) throws ParseException {
    Pattern referencePattern = Pattern.compile("PASSENGER:\\d+");
    System.out.println(countPattern("[ \"PASSENGER:1\", \"PASSENGER:2\", \"AIR:1\", \"AIR:2\", \"FOP:2\" ]", referencePattern));
    System.out.println(countPattern("[ \"AIR:1\", \"AIR:2\", \"FOP:2\" ]", referencePattern));
    System.out.println(countPattern("[ \"AIR:1\", \"AIR:2\", \"FOP:2\", \"PASSENGER:1\" ]", referencePattern));
    System.out.println(countPattern("[  ]", referencePattern));
}

Isso imprime:

2
0
1
0

Esta é uma solução para partidas disjuntas com streams:

public static int countPattern(String references, Pattern referencePattern) {
    return StreamSupport.stream(Spliterators.spliteratorUnknownSize(
            new Iterator<Integer>() {
                Matcher matcher = referencePattern.matcher(references);
                int from = 0;

                @Override
                public boolean hasNext() {
                    return matcher.find(from);
                }

                @Override
                public Integer next() {
                    from = matcher.start() + 1;
                    return 1;
                }
            },
            Spliterator.IMMUTABLE), false).reduce(0, (a, c) -> a + c);
}
gil.fernandes
fonte
1

Use o código abaixo para encontrar a contagem do número de correspondências que a regex encontra em sua entrada

        Pattern p = Pattern.compile(regex, Pattern.MULTILINE | Pattern.DOTALL);// "regex" here indicates your predefined regex.
        Matcher m = p.matcher(pattern); // "pattern" indicates your string to match the pattern against with
        boolean b = m.matches();
        if(b)
        count++;
        while (m.find())
        count++;

Este é um código generalizado, não específico, porém, adapte-o para atender às suas necessidades

Sinta-se à vontade para me corrigir se houver algum erro.

dito emir
fonte