É mais rápido procurar termos de pesquisa longos ou curtos? Ou isso afeta a velocidade? Em outras palavras, você deve tornar os termos de pesquisa o mais preciso possível?
Existem mais de 100 000 arquivos e cada arquivo contém entre 20 e mais de 5000 linhas de dados. Normalmente, o grep é usado para encontrar apenas uma instância do termo de pesquisa.
Digamos que o termo de pesquisa seja SEARCHTERM
e ele será seguido assim:
NAD+DP+1234567890:92++UNIQUE+NAME+SEARCHTERM++12345+FI'
É mais rápido procurar "SEARCH" ou "SEARCHTERM"? Digamos que, neste caso, não nos importamos se também encontrarmos correspondências em outras linhas não relacionadas.
É assim que eu faço atualmente:
grep NAD+DP 123* | grep SEARCHTERM
Mas acho isso muito lento, ainda. Geralmente, leva cerca de 3-5 minutos para encontrar os dados, mesmo quando eu conheço o nome do arquivo bruto, que limita o intervalo a cerca de 10.000 arquivos.
Então, um termo de pesquisa maior ou menor ajudaria? Até onde eu sei, o grep procura por "blocos" de palavras de um determinado comprimento?
fonte