Eu tenho uma digitalização de boa qualidade de um documento; essa digitalização está em formato pdf.
Como posso adicionar informações ocr ao pdf, para que elas se tornem pesquisáveis? Por pesquisável, quero dizer que o objetivo é que, ao visualizar o pdf com evince, o CTRL-F realmente me permita pesquisar no conteúdo em pdf.
Respostas:
pdfsandwich
Faz o que você deseja e fornece pacotes deb do Ubuntu. Ele usa o tesseract como mecanismo de OCR. A chamada a seguir adiciona a camada de texto ao seu PDF digitalizado:
A seguir, faz o mesmo, mas com outro idioma (código ISO 639-2,
tesseract-ocr-LANGCODE
pacote de download ) e definindo o layout:Se houver algum erro, faça o download da última versão deb do Sourceforge .
Disclaimer: Eu sou o desenvolvedor do pdfsandwich e, portanto, obviamente tendencioso.
fonte
pdfunite
.pdfsandwitch
? Estou fazendo isso com alguns documentos suecos e funciona bem, exceto por erros de ortografia (provavelmente por causa da fonte do original), que seriam fáceis de corrigir se fosse um arquivo de texto, mas como posso fazer isso no PDF resultante ?Existem dois projetos que fazem o truque: GScan2PDF e OCRFeeder
fonte
Encontrei uma solução não ideal, mas muito eficaz.
Eu uso o PDF X-Change Viewer através do Wine. Possui um recurso de OCR que adiciona uma camada de texto ao pdf baseado em imagem existente.
Assim, você pode pesquisar e copiar texto dessa camada invisível.
fonte
Para uma solução de linha de comando, você pode usar o pdfocr .
Em resumo, instale o software:
Em seguida, execute o pdfocr:
Isso funcionou para mim no Ubuntu 12.04 LTS.
fonte
pdfsandwich
, pois modifica / compacta PDFs contendo imagens de alta resolução, basicamente destruindo algumas das informações da imagem original.Uma solução que é facilmente implementável e fornece um pdf de saída com a mesma qualidade de arquivo de entrada e tamanho razoável é o OCRmyPDF:
https://github.com/jbarlow83/OCRmyPDF
fonte
Esta é a minha solução rápida e suja com base em ImageMagick de
convert
,tesseract
,parallel
epdftk
(todos disponíveis em distribuições baseadas em Debian). É amplamente baseado nesta postagem do blog .fonte
Para um diretório inteiro com arquivos ppm, você pode usar este script ppm2ocrpdf.sh
fonte