Como converter um PDF digitalizado em PDF com texto

36

Digitalizei cerca de 80 páginas em PDF em escala de cinza (formato de imagem). O tamanho final do arquivo é de cerca de 70 MB, o que é muito grande.

Agora, estou procurando um método para converter o arquivo PDF baseado em imagem em escala de cinza em um simples arquivo PDF baseado em texto em preto e branco.

Fiz muitas tentativas, gsmas sem sucesso (apenas uma recuperação de alguns por cento). Se algum especialista tiver alguma idéia, por favor me avise.

Almirante
fonte
1
Você precisa de alguma ferramenta de OCR. Veja o Tesseract ubuntuforums.org/showthread.php?t=880471
Nikita U.
4
Se você estiver interessado em manter as imagens em PDF como estão e adicionar texto a elas, consulte a pergunta Adicionando informações de OCR a um PDF .
colan
Se você pudesse postar um link para (por exemplo) exemplo de uma página, poderíamos testar soluções ...
Rmano 30/04
Não é uma solução de OCR, mas o askubuntu.com/a/3387/16395 ajuda muito (embora 72dpi esteja um pouco mais baixo, tenho melhores resultados com 120).
Rmano 30/04
O YAGF funciona corretamente com o Ubuntu 16.04? Se eu carregar uma imagem ou um documento PDF, o programa será interrompido sem nenhuma mensagem de erro. No Ubuntu 14.04, não tive problemas. H.Roos
Hubert Roos

Respostas:

25

O gImageReader é um front-end simples do GTK + para tesseract-ocr.

sudo apt-get install gimagereader tesseract-ocr

desculpe pelo texto em alemão

AB
fonte
4
Você também deve instalar o idioma do documento para melhorar o OCR, com sudo apt-get install tesseract-ocr-[lang], substituindo langpelo código de linguagem, como deupara Deutsch, porpara o Português, etc.
Estibordo
1
Este software é feio. Usabilidade está abaixo de zero. Embora tente fazer o trabalho, mas é incapaz de ler tabelas simples como planilhas. Apenas perde as páginas que os contêm.
precisa
9

Você pode tentar o pdfocr:

 sudo add-apt-repository ppa:gezakovacs/pdfocr
 sudo apt-get update
 sudo apt-get install pdfocr

Para executar a sintaxe é

 pdfocr -i input.pdf -o output.pdf

Onde input.pdfé o nome do arquivo de entrada e output.pdfo arquivo de saída.

Por padrão, ele usa o Tesseract. Para instalá-lo:

 sudo apt-get install tesseract-ocr

O pdfocr cria uma camada de texto incorporada.

rafmunozf
fonte
Ótimo! Curiosamente, depois de executar as etapas acima, o arquivo agora pode ser pesquisado no Adobe Acrobat DC, mas não na Visualização.
Lukeaus
2
Este repositório não suporta xenial
Max N
Você pode tentar instalar uma versão antiga do pdfocr, se você instalar a versão ardilosa no xenial, funcionará bem. Para fazer isso, adicione "deb ppa.launchpad.net/gezakovacs/pdfocr/ubuntu wily main" e "deb-src ppa.launchpad.net/gezakovacs/pdfocr/ubuntu wily main" a /etc/apt/sources.list e depois "sudo apt update" e "sudo apt-get install pdfocr"
rafmunozf 28/01
2
pdfocr é um script que automatiza o seguinte processo: 1. Dividir o arquivo PDF em páginas separadas usando pdftk 2. Extrair os dados da imagem usando pdfimages 3. Executar OCR (reconhecimento óptico de caracteres) usando cuneiforme 4. Incorporar o texto detectado novamente no Arquivo PDF usando o hocr2pdf 5. Mesclando os arquivos usando o pdftk. (citando ubuntuforums.org/showthread.php?t=1456756 )
Tommy Trussell
3
pdfsandwich

Carrega o tesseract e outros na instalação. É uma solução fácil de uma etapa e pode ser script. Ele pode ser usado hocr2pdfpara criar um pdf em texto sem formatação, mas ainda não está pronto para o horário nobre ... ainda. O padrão usa o tesseract e cria um pdf "imprensado": imagem + texto embaixo.

A imagem incorporada pode ser removida com comandos como:

gs -o ocr_noIMG.pdf -sDEVICE=pdfwrite -dFILTERIMAGE ocr_image.pdf

mas o texto está oculto, parece uma página em branco.

O carregamento do PDF LibreOffice Drawexpõe o texto e a imagem pode ser excluída manualmente.

AtesComp
fonte
O que fazemos sobre problemas de segurança imagemagick / ghostscript que levam a not authorizederros identify-im6.q16como este: imagemagick - convert: not aaaaallowed @ error / constit.c / ReadImage / 453 - Stack Overflow
nealmcb
1

Para a interface gráfica sugerida pelo @AB no ubuntu 14.04, você deve seguir:

ocr tesseract no ubuntu 14.04

ou mesmo assim, adicione à lista de repositórios:

sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update

antes que isso funcione:

sudo apt-get install gimagereader
michel.iamit
fonte
1

Você pode tentar shrinkpdf para reduzir o tamanho do arquivo e depois ocr.sh para adicionar a camada de texto.

aluna
fonte
-1

No seu arquivo pdf, clique com o botão direito do mouse e salve cada página como imagem (ou encontre alguma ferramenta que faça todas as páginas automaticamente)

Abra o centro de software Ubuntu. Procure por tesseract. Você encontrará o YAGF que você deve instalar. No YAGF, clique em Arquivo -> Abrir imagem e carregue sua imagem. Em seguida, clique em Arquivo -> Reconhecer.

Eu tive 100% de precisão no meu primeiro teste.

atmelino
fonte