Software de digitalização para PDF para Linux?

Tenho um fluxo de trabalho no qual digitalizo documentos em papel para PDFs pesquisáveis usando um scanner de documento Fujitsu ScanSnap S500 . Não sou um grande fã do software incluído, mas é muito simples de usar: coloque uma pilha de papel na parte superior, pressione o botão verde e um PDF pesquisável será exibido.

Agora, eu gostaria de fazer algo semelhante no Linux (Ubuntu 10.10). O scanner é suportado imediatamente.

Eu olhei gscan2pdfe XSane:

XSane parece poderoso, mas não é realmente adequado como solução de fluxo de trabalho;
gscan2pdf está um pouco mais perto do ideal "aperte o botão, pegue o PDF", mas ainda não está 100% lá.

Algum outro software que você pode recomendar (gratuito ou não)?

linux pdf scanning NPE
fonte

eu uso pdf-cups, mas é uma imagem que não pode ser pesquisada em texto #

RobotHumans 12/12

O que 'não está 100% lá' com o gscan2pdf?

digitxp

@digitxp Eu não queria desordenar a questão com uma lista completa de problemas, gostos e desgostos para qualquer produto. No entanto, como você pergunta, gscan2pdfeu tinha artefatos estranhos com 'não papel', o OCR era principalmente inutilizável (alguns motores são melhores que outros) e, no geral, não era tão simplificado quanto a solução original. De qualquer forma, a essência da minha pergunta é ver o que mais existe por aí, para que eu possa tentar várias soluções e ver o que funciona melhor para mim.

NPE

@digitxp Acabei de reler o meu comentário anterior e parece bastante negativo. Essa não era a intenção. gscan2pdfé realmente bastante próximo do que estou procurando, mas há áreas em que ela infelizmente está ausente em comparação com a solução original.

NPE

Respostas:

Aqui estão algumas coisas que eu encontrei ao pesquisar isso no início deste ano. Desculpe, não posso postar mais de um hiperlink devido à minha classificação limitada; portanto, você terá que procurar no Google pelos links.

gscan2pdf

Um sistema GUI realmente bom que pode usar vários mecanismos de OCR para o back-end. Isso provavelmente atenderá à sua solução de um toque (e a digitxp já a mencionou).

Mecanismo de OCR do Tesseract

Pode ser usado com o gscan2pdf.

http://www.linuxjournal.com/article/9676

Ocropus

Não fui muito longe com o polvo, pois ele não reconhecia texto sem treinamento extensivo. Provavelmente seria muito bom para livros, mas não funcionou bem para mim com contas e coisas do tipo. YMMV.

Cuneiforme

Eu tive o melhor sucesso com o Cuneiform e consegui criar PDFs pesquisáveis por scripts de comandos semelhantes ao seguinte fluxo de trabalho:

# extract images from scans
# (not shown)

# convert to black-and-white
optimize2bw -n -i nuance-test.png  -o bw.bmp                               

# do the OCR process and generate an hOCR file
cuneiform -l eng -f hocr -o nuance-test.html bw.bmp

# reassemble the original image with the hOCR file to generate a new PDF
hocr2pdf -s -i nuance-test.png -o nuance-test.hocr.pdf < nuance-test.html

Você também precisará instalar o pacote exactimage.

Vários projetos de código aberto para OCR'ing PDF também usam Cuniform e hocr2pdf :

WatchOCR
Arquivista

Deixe-me saber o que você descobriu!

Eric Holmberg
fonte