Existe um mecanismo de indexação de texto completo, que pode ser consultado na linha de comando e, idealmente, não exigiria o uso de uma GUI?
Estou especialmente interessado em indexar meus e-books e documentos, de modo que é uma mistura de pdf, epub e alguns djvu. Os documentos (abertos) do Office seriam bons, mas muito mais baixos na minha lista.
command-line
search
julien
fonte
fonte
Respostas:
Você já olhou para Lucene ou Sphinx? Embora você precise analisar inicialmente os documentos que deseja indexar, uma vez feito isso, qualquer um pode pesquisar no CLI.
Para Lucene, há algumas informações sobre como fazer isso disponível .
Sphinx, é um pouco mais vago, mas também há alguma documentação disponível . Você pode transmitir dados XML estruturados de sua escolha para o sphinx por meio da fonte de dados xmlpipe2.
O Lucene depende do Java, enquanto o Sphinx é construído em C ++, sem dependências externas necessárias.
Qualquer um deles exigirá um pouco de trabalho para fazer o que você deseja, mas parece uma solução totalmente viável.
fonte
confira xapian . Possui interface de linha de comando e pode indexar muitos formatos.
fonte
O Recoll pode ser criado sem GUI e pesquisará os tipos de documentos na linha de comando.
Ele usa Xapian sob o capô.
fonte
O rastreador pode ser chamado a partir da linha de comando e o gtk + não é uma dependência difícil para um projeto (mas pode ser para pacotes).
fonte
Esta resposta recomenda o uso da pesquisa de códigos do Google ,
Superusuários no Debian / derivativos podem tentar:
sudo apt-get install codesearch
fonte
Atualmente, existem dois fluxos de Tracker, estável (0,8) e instável (0,9). Seu sistema operacional provavelmente tem a versão 0.8, portanto, se você puder pagar (ele tem algumas dependências de software de ponta ), vá para o tarfile mais recente (0.9.x). Ele tem muitas melhorias acima de 0,8 e está sendo estabilizado ainda mais para ser 0,10 (números pares representam estabilidade). Se você optar por seguir esta rota, use este comando para configurar:
Você provavelmente não terá as dependências instaladas, por isso deve ser mais fácil instalar 0.8 da sua distribuição e evitar os bits da GUI. No Debian Squeeze, Ubuntu 10.10 e Ubuntu 11.04, eles são bem divididos. Então ( como root ) execute:
A ferramenta CLI para isso é
tracker-search
, então execute-a com a--help
opção para ver como tirar proveito dela :-)notas :
tracker-applet
etracker-preferences
. No entanto, eles têm um pacote separado paratracker-search-tool
a interface de pesquisa da GUI.fonte
Trabalhei na redação de uma ferramenta de pesquisa de texto completo (um novo propósito) para indexar e pesquisar páginas de manual do NetBSD neste verão usando o Sqlite3. Consiste em duas ferramentas de linha de comando:
Você pode escrever facilmente uma ferramenta semelhante para si mesmo, para os PDFs, você precisará de uma biblioteca para analisar documentos em PDF e de um utilitário semelhante para analisar os documentos abertos do escritório.
Você pode ler mais sobre o projeto aqui
O código está aqui
fonte