Digitalizei cerca de 80 páginas em PDF em escala de cinza (formato de imagem). O tamanho final do arquivo é de cerca de 70 MB, o que é muito grande.
Agora, estou procurando um método para converter o arquivo PDF baseado em imagem em escala de cinza em um simples arquivo PDF baseado em texto em preto e branco.
Fiz muitas tentativas, gs
mas sem sucesso (apenas uma recuperação de alguns por cento). Se algum especialista tiver alguma idéia, por favor me avise.
Respostas:
O gImageReader é um front-end simples do GTK + para
tesseract-ocr
.desculpe pelo texto em alemão
fonte
sudo apt-get install tesseract-ocr-[lang]
, substituindolang
pelo código de linguagem, comodeu
para Deutsch,por
para o Português, etc.Você pode tentar o pdfocr:
Para executar a sintaxe é
Onde
input.pdf
é o nome do arquivo de entrada eoutput.pdf
o arquivo de saída.Por padrão, ele usa o Tesseract. Para instalá-lo:
O pdfocr cria uma camada de texto incorporada.
fonte
Carrega o tesseract e outros na instalação. É uma solução fácil de uma etapa e pode ser script. Ele pode ser usado
hocr2pdf
para criar um pdf em texto sem formatação, mas ainda não está pronto para o horário nobre ... ainda. O padrão usa o tesseract e cria um pdf "imprensado": imagem + texto embaixo.A imagem incorporada pode ser removida com comandos como:
mas o texto está oculto, parece uma página em branco.
O carregamento do PDF
LibreOffice Draw
expõe o texto e a imagem pode ser excluída manualmente.fonte
not authorized
errosidentify-im6.q16
como este: imagemagick - convert: notaaaa
allowed @ error / constit.c / ReadImage / 453 - Stack OverflowPara a interface gráfica sugerida pelo @AB no ubuntu 14.04, você deve seguir:
ocr tesseract no ubuntu 14.04
ou mesmo assim, adicione à lista de repositórios:
antes que isso funcione:
fonte
Você pode tentar shrinkpdf para reduzir o tamanho do arquivo e depois ocr.sh para adicionar a camada de texto.
fonte
No seu arquivo pdf, clique com o botão direito do mouse e salve cada página como imagem (ou encontre alguma ferramenta que faça todas as páginas automaticamente)
Abra o centro de software Ubuntu. Procure por tesseract. Você encontrará o YAGF que você deve instalar. No YAGF, clique em Arquivo -> Abrir imagem e carregue sua imagem. Em seguida, clique em Arquivo -> Reconhecer.
Eu tive 100% de precisão no meu primeiro teste.
fonte