primeiro, peço desculpas se isso já foi solicitado antes - procurei por um tempo nas postagens existentes, mas não consegui encontrar suporte.
Estou interessado em uma solução para o Fedora OCR de um pdf não pesquisável de várias páginas e para transformá-lo em um novo arquivo pdf que contenha a camada de texto na parte superior da imagem. No Mac OSX ou Windows, poderíamos usar o Adobe Acrobat, mas no Linux, especificamente no Fedora?
https://snippets.webaware.com.au/howto/pdf-ocr-linux/ parece descrever uma solução - mas, infelizmente, já estou perdido ao recuperar a imagem exata.
command-line
pdf
ocr
ingli
fonte
fonte
Respostas:
A melhor e mais fácil maneira de usá-
pypdfocr
lo não muda o pdf. pypdfocr é um link do módulo python aqui.No final, você terá outro
your_document_ocr.pdf
como deseja com texto pesquisável. O aplicativo não altera a qualidade da imagem. Aumenta um pouco o tamanho do arquivo adicionando o texto da sobreposição.Eu acho que o comando é bem fácil e não precisa de nenhuma interface gráfica. Talvez a instalação do pypdfocr seja um pouco mais detalhada:
Atualização em 3 de novembro de 2018:
pypdfocr
não é mais suportado desde 2016 e notei alguns problemas por não serem mentidos.ocrmypdf
( module ) faz um trabalho semelhante e pode ser usado assim:Para instalar:
ou
fonte
Depois de saber que o tesseract agora também pode produzir pdfs pesquisáveis, encontrei o sanduíche de script: http://www.tobias-elze.de/pdfsandwich/
depois de instalar dependências (essa pode não ser a lista completa)
Eu segui o guia do script para compilar a partir da fonte
e isso agora me permite executar
resultando em um pdf pesquisável.
fonte
Uma ferramenta fácil disponível no Ubuntu é o 'ocrfeeder', que permite a geração de PDFs com texto OCR sobreposto nos documentos originais. Ele usa o Tesseract e outros mecanismos de OCR (não sabe qual) e fornece rotação de imagem / 'não papel', etc.
fonte
Eu tive esse mesmo problema, então escrevi isso no fim de semana. Dê uma chance; funciona muito bem! É um invólucro simples
tesseract
. Ele usapdftoppm
para converter um PDF em um monte de arquivos TIFF, depoistesseract
executa o OCR (reconhecimento óptico de caracteres) neles e produz um PDF pesquisável como saída. Todos os arquivos temporários intermediários são excluídos automaticamente quando o script é concluído.Código fonte: https://github.com/ElectricRCAircraftGuy/PDF2SearchablePDF
Instruções para instalar e usar
pdf2searchablepdf
:Testado no Ubuntu 18.04 em 11 de nov de 2019.
Instalar:
Usar:
Agora você terá um pdf chamado mypdf_searchable.pdf , que contém texto pesquisável!
Feito. Ele não possui dependências python, pois atualmente está escrito inteiramente no bash.
Referências ou Recursos Relacionados:
fonte