Como posso converter imagens digitalizadas como PDF em um arquivo PDF pesquisável? [fechadas]

19

Eu tenho um PDF de um livro digitalizado.

Eu estou procurando um software livre que irá executar o OCR e, em seguida, fornecer uma opção para salvá-lo como um PDF ou documento novamente.

Existe um?

slhck
fonte
Quer dizer que você quer converter as imagens no pdf em texto?
DaveParillo
sim, mas não quero um arquivo txt como saída. Eu quero ver exatamente o mesmo pdf, mas com uma opção para pressionar Ctrl + F e marcar palavras etc.
você terá muita dificuldade em converter este PDF sem perder a formatação e o estilo do texto. Eu ainda tenho que encontrar o software OCR capaz de preservar adequadamente um documento de imagens digitalizadas. prepare-se para algum trabalho burro (por exemplo, revisão de texto, etc.) :)

Respostas:

5

Você pode baixar o teste de 30 dias do Adobe Acrobat Pro e use a função 'Reconhecimento de texto OCR' ('Document & gt; Reconhecimento de texto OCR & gt; Reconhecer texto usando OCR ...'). Na caixa de diálogo de configurações, escolha 'Imagem pesquisável' como o estilo de saída. Isso manterá a imagem da página, mas incorporará o texto do OCR para que o documento seja pesquisável e permita que o texto seja selecionado, copiado e colado.

Depois de executar o OCR, você precisará confirmar ou corrigir as palavras que o OCR não tem certeza sobre o uso das funções 'Encontrar suspeitas de OCR'.

pelms
fonte
Embora a Adobe não seja gratuita, é de longe a solução OCR mais capaz que existe
James Healy
4

Se você tem uma Conta do Google, o Google Docs agora inclui a funcionalidade para fazer upload de um arquivo PDF e realizar o OCR nele.

Eu tentei por mim mesmo e isso faz uma boa tentativa em um PDF reconhecidamente bem formatado.

A formatação é praticamente destruída, mas o texto parece sobreviver.

Richard Lucas
fonte
4

Os seguintes produtos foram encontrados listados na Internet, mas eu não os usei.

OCR Online

Terminal de OCR

OCR Terminal é um serviço de OCR online   que executa o caractere óptico   Reconhecimento (OCR) no seu scanner   imagens e arquivos pdf e processa-los   em editável e texto pesquisável   documentos.

OCR livre

Free-OCR.com é um OCR on-line gratuito   (Optical Character Recognition).   Você pode usar isso para executar o OCR em qualquer   imagem que você fornece.
Este serviço é gratuito, sem registro   necessário. Nós também não precisamos do seu   endereço de e-mail.
Basta carregar seus arquivos de imagem. Free-OCR   leva um JPG, GIF, TIFF BMP ou   PDF ( somente primeira página ).   A única restrição é que o   as imagens não devem ser maiores que 2 MB, não   maior ou maior que 5000 pixels e   há um limite de 10 uploads de imagens   por hora.

Servidor de Reconhecimento Maestro é comercial, mas tem uma demonstração on-line.

Software grátis

FreeOCR - apenas para imagens.

FreeOCR é um scan & amp; Programa de OCR   incluindo o ocre Tesseract livre   motor também conhecido como um Tesseract GUI.   Inclui um instalador do Windows e   é muito simples de usar e suporta   tiff de várias páginas, documentos de fax como   bem como a maioria dos tipos de imagem, incluindo   Tiff comprimido que o Tesseract   motor por si só não pode ler. Agora   tem Twain digitalização.

pdfsandwich - pdf - & gt; pdf conversor.

O pdfsandwich é uma ferramenta de linha de comando para livros ou periódicos digitalizados por OCR.   É capaz de reconhecer o layout da página mesmo para o texto de várias colunas.

Essencialmente, o pdfsandwich é um script wrapper que chama os seguintes binários:   convert, cuneiform, gs e hocr2pdf. É conhecido por rodar em sistemas Unix e tem   foi testado em Linux e MacOS X. Ele suporta processamento paralelo em sistemas multiprocessadores.

harrymc
fonte
Acabei de usar o pdfsandwich. Funciona e é grátis! :) Isso certamente vai ajudar na minha tese, obrigado!
Eddy
Parece que o pdfsandwich mudou de lugar? tobias-elze.de/pdfsandwich
pioto
@pioto: Não fui eu que adicionei pdfsandwich acima, mas consertei o link como você sugeriu.
harrymc
2

Cuneiforme + hocr2pdf + Ghostscript : Uma solução de código aberto DIY.

Eu postei um responda delineando uma solução envolvendo uma versão do agora open-source Cuneiforme Sistema OCR e hocr2pdf junto com Ghostscript para colocar as páginas em PDF juntas.

Isso foi especificamente para o Linux, mas você também pode obter o Cuneiform e o Ghostscript para Windows. Eu não tenho certeza sobre hocr2pdf ou um equivalente, no entanto.

Jukka Matilainen
fonte
1

Aqui está um método muito estranho, que envolve deixar o índice do Google e o OCR para você em um site e, em seguida, recuperá-lo.

jtbandes
fonte
sim, eu vi isso também ... estranho De fato :) eu poderia acabar fazendo isso ...
0

Instalar Imagemagick . Abra uma janela ou terminal cmd:

convert myfile.pdf myfile-%02d.jpg

A saída será 1 arquivo jpg para cada página em seu pdf, myfile-00.jpg, myfile-01.jpg, etc.

Passe cada imagem através de um programa ocr. Eu não tenho muita experiência com isso, mas parece haver muitas escolhas.

Converta cada página do texto de volta em pdf. Você poderia fazer isso novamente com o imagemagick, mas também há outras maneiras:

convert page-%02d.txt -density 300x300 -compress jpeg final.pdf
DaveParillo
fonte
0

Sua solicitação parece ser uma solução complicada para o problema, embora eu possa não entender o problema corretamente. A qualquer custo:

Por que não obter um gravador de PDF que permitirá que você insira os dados diretamente na página em PDF?

Xavierjazz
fonte
0

Experimentar PDFCubed.com Nada para instalar, tudo é feito online. Você pode enviar seus documentos para serem processados ​​via web, email ou caixa de depósito. Os PDFs e TIFs digitalizados são convertidos em PDFs de texto pesquisáveis ​​e podem ser recuperados via web, email ou caixa de depósito.

rlangner
fonte