Alguma ferramenta para automatizar o OCR de arquivos PDF digitalizados de maneira semelhante ao recurso de OCR do Acrobat? [fechadas]

Código aberto preferido, mas não necessário.

Eu tenho o Adobe Acrobat 8 e gosto muito do recurso OCR, que pode essencialmente colocar uma camada invisível de texto OCR sobre um documento digitalizado. Portanto, o que você vê na tela é o documento digitalizado original, mas o resultado é pesquisável.

O que estou procurando é uma maneira de automatizar esse processo. Atualmente, tenho alguns scripts que usamos para processar e arquivar arquivos digitalizados e estou procurando algo que possa ser conectado diretamente a esse processo em lote para fazer o OCR de maneira semelhante ao que posso fazer com o Acrobat.

Todas as sugestões são bem-vindas, obrigado!

pdf document-management ocr Boden
fonte

PS - Eu tento manter as perguntas sobre o usuário no superusuário. No entanto, a implementação que resulta dessa pergunta definitivamente permanecerá no servidor que eu processei a documentação digitalizada ... portanto, foi um lançamento.

2299 Boden

Respostas:

Eu tenho isso implementado em um projeto de arquivamento de documentos da empresa. O arquivo digitalizado é um arquivo tif (página única). Em seguida, use o Cuneiform para criar um arquivo hocr da única tif. Em seguida, use hocr2pdf para gerar o arquivo PDF. Se houver várias páginas de digitalização, uso gs para combinar os PDFs em um único documento PDF. Funciona muito bem, o OCR é bom o suficiente para nossas necessidades e é pesquisável em qualquer visualizador de PDF.

xeon
fonte

Interessante. Antes de gastar muito tempo olhando para ele, o PDF resultante é a imagem da digitalização original com uma camada de texto incorporada ou é apenas texto?

2299 Boden

É a imagem da digitalização original com a camada de texto incorporada. O arquivo hocr é uma saída de texto com marcações html.

xeon

Excelente. Eu vou tentar. Se parecer que funcionará, marcarei sua resposta como aceita. Obrigado!

Boden

Obrigado novamente. Um pouco de dor para instalar esses dois caras, mas está funcionando. Eu escrevi um script simples para verificar uma pasta FTP em busca de novos arquivos .tif nos quais ele executa cuneiform e hocr2pdf, depois carrega os resultados em uma biblioteca de documentos sharpoint usando curl. Assim, as pessoas podem arquivar documentos diretamente da copiadora e os arquivos são totalmente pesquisáveis em texto. Pergunta: você sabe o que a opção "substituição sobrescrita" no hocr2pdf faz?

Boden

Estou feliz que está funcionando para você. Eu não sei o que o argumento -r faz.

xeon

Você já olhou para o WatchOCR? É possível fazer o download em http://www.watchocr.com É um servidor OCR de código aberto e gratuito que transforma PDFs apenas de imagem em PDF pesquisáveis em texto a partir de uma pasta monitorada ou compartilhamento de rede.

rlangner
fonte

Gosto dos sons da resposta do xeon, embora o OCRopus pareça muito divertido.

Kara Marfia
fonte

Quando eu estava pesquisando e testando soluções diferentes. Eu tentei isso e o tesseract-ocr e eles não tinham um bom caminho para o PDF na época. Eu não olhei para se eles têm essas características ... Eu sei tesseract-ocr tem em sua linha do tempo ...

xeon