Código aberto preferido, mas não necessário.
Eu tenho o Adobe Acrobat 8 e gosto muito do recurso OCR, que pode essencialmente colocar uma camada invisível de texto OCR sobre um documento digitalizado. Portanto, o que você vê na tela é o documento digitalizado original, mas o resultado é pesquisável.
O que estou procurando é uma maneira de automatizar esse processo. Atualmente, tenho alguns scripts que usamos para processar e arquivar arquivos digitalizados e estou procurando algo que possa ser conectado diretamente a esse processo em lote para fazer o OCR de maneira semelhante ao que posso fazer com o Acrobat.
Todas as sugestões são bem-vindas, obrigado!
pdf
document-management
ocr
Boden
fonte
fonte
Respostas:
Eu tenho isso implementado em um projeto de arquivamento de documentos da empresa. O arquivo digitalizado é um arquivo tif (página única). Em seguida, use o Cuneiform para criar um arquivo hocr da única tif. Em seguida, use hocr2pdf para gerar o arquivo PDF. Se houver várias páginas de digitalização, uso gs para combinar os PDFs em um único documento PDF. Funciona muito bem, o OCR é bom o suficiente para nossas necessidades e é pesquisável em qualquer visualizador de PDF.
fonte
Você já olhou para o WatchOCR? É possível fazer o download em http://www.watchocr.com É um servidor OCR de código aberto e gratuito que transforma PDFs apenas de imagem em PDF pesquisáveis em texto a partir de uma pasta monitorada ou compartilhamento de rede.
fonte
Gosto dos sons da resposta do xeon, embora o OCRopus pareça muito divertido.
fonte