Alguma ferramenta para automatizar o OCR de arquivos PDF digitalizados de maneira semelhante ao recurso de OCR do Acrobat? [fechadas]

10

Código aberto preferido, mas não necessário.

Eu tenho o Adobe Acrobat 8 ​​e gosto muito do recurso OCR, que pode essencialmente colocar uma camada invisível de texto OCR sobre um documento digitalizado. Portanto, o que você vê na tela é o documento digitalizado original, mas o resultado é pesquisável.

O que estou procurando é uma maneira de automatizar esse processo. Atualmente, tenho alguns scripts que usamos para processar e arquivar arquivos digitalizados e estou procurando algo que possa ser conectado diretamente a esse processo em lote para fazer o OCR de maneira semelhante ao que posso fazer com o Acrobat.

Todas as sugestões são bem-vindas, obrigado!

Boden
fonte
1
PS - Eu tento manter as perguntas sobre o usuário no superusuário. No entanto, a implementação que resulta dessa pergunta definitivamente permanecerá no servidor que eu processei a documentação digitalizada ... portanto, foi um lançamento.
2299 Boden

Respostas:

8

Eu tenho isso implementado em um projeto de arquivamento de documentos da empresa. O arquivo digitalizado é um arquivo tif (página única). Em seguida, use o Cuneiform para criar um arquivo hocr da única tif. Em seguida, use hocr2pdf para gerar o arquivo PDF. Se houver várias páginas de digitalização, uso gs para combinar os PDFs em um único documento PDF. Funciona muito bem, o OCR é bom o suficiente para nossas necessidades e é pesquisável em qualquer visualizador de PDF.

xeon
fonte
Interessante. Antes de gastar muito tempo olhando para ele, o PDF resultante é a imagem da digitalização original com uma camada de texto incorporada ou é apenas texto?
2299 Boden
É a imagem da digitalização original com a camada de texto incorporada. O arquivo hocr é uma saída de texto com marcações html.
xeon
Excelente. Eu vou tentar. Se parecer que funcionará, marcarei sua resposta como aceita. Obrigado!
Boden
1
Obrigado novamente. Um pouco de dor para instalar esses dois caras, mas está funcionando. Eu escrevi um script simples para verificar uma pasta FTP em busca de novos arquivos .tif nos quais ele executa cuneiform e hocr2pdf, depois carrega os resultados em uma biblioteca de documentos sharpoint usando curl. Assim, as pessoas podem arquivar documentos diretamente da copiadora e os arquivos são totalmente pesquisáveis ​​em texto. Pergunta: você sabe o que a opção "substituição sobrescrita" no hocr2pdf faz?
Boden
Estou feliz que está funcionando para você. Eu não sei o que o argumento -r faz.
xeon
1

Você já olhou para o WatchOCR? É possível fazer o download em http://www.watchocr.com É um servidor OCR de código aberto e gratuito que transforma PDFs apenas de imagem em PDF pesquisáveis ​​em texto a partir de uma pasta monitorada ou compartilhamento de rede.

rlangner
fonte
0

Gosto dos sons da resposta do xeon, embora o OCRopus pareça muito divertido.

Kara Marfia
fonte
Quando eu estava pesquisando e testando soluções diferentes. Eu tentei isso e o tesseract-ocr e eles não tinham um bom caminho para o PDF na época. Eu não olhei para se eles têm essas características ... Eu sei tesseract-ocr tem em sua linha do tempo ...
xeon