Tenho um fluxo de trabalho no qual digitalizo documentos em papel para PDFs pesquisáveis usando um scanner de documento Fujitsu ScanSnap S500 . Não sou um grande fã do software incluído, mas é muito simples de usar: coloque uma pilha de papel na parte superior, pressione o botão verde e um PDF pesquisável será exibido.
Agora, eu gostaria de fazer algo semelhante no Linux (Ubuntu 10.10). O scanner é suportado imediatamente.
Eu olhei gscan2pdf
e XSane
:
XSane
parece poderoso, mas não é realmente adequado como solução de fluxo de trabalho;gscan2pdf
está um pouco mais perto do ideal "aperte o botão, pegue o PDF", mas ainda não está 100% lá.
Algum outro software que você pode recomendar (gratuito ou não)?
gscan2pdf
eu tinha artefatos estranhos com 'não papel', o OCR era principalmente inutilizável (alguns motores são melhores que outros) e, no geral, não era tão simplificado quanto a solução original. De qualquer forma, a essência da minha pergunta é ver o que mais existe por aí, para que eu possa tentar várias soluções e ver o que funciona melhor para mim.gscan2pdf
é realmente bastante próximo do que estou procurando, mas há áreas em que ela infelizmente está ausente em comparação com a solução original.Respostas:
Aqui estão algumas coisas que eu encontrei ao pesquisar isso no início deste ano. Desculpe, não posso postar mais de um hiperlink devido à minha classificação limitada; portanto, você terá que procurar no Google pelos links.
gscan2pdf
Um sistema GUI realmente bom que pode usar vários mecanismos de OCR para o back-end. Isso provavelmente atenderá à sua solução de um toque (e a digitxp já a mencionou).
Mecanismo de OCR do Tesseract
Pode ser usado com o gscan2pdf.
Ocropus
Não fui muito longe com o polvo, pois ele não reconhecia texto sem treinamento extensivo. Provavelmente seria muito bom para livros, mas não funcionou bem para mim com contas e coisas do tipo. YMMV.
Cuneiforme
Eu tive o melhor sucesso com o Cuneiform e consegui criar PDFs pesquisáveis por scripts de comandos semelhantes ao seguinte fluxo de trabalho:
Você também precisará instalar o pacote exactimage.
Vários projetos de código aberto para OCR'ing PDF também usam Cuniform e hocr2pdf :
Deixe-me saber o que você descobriu!
fonte