Eu tenho um PDF de um livro digitalizado.
Eu estou procurando um software livre que irá executar o OCR e, em seguida, fornecer uma opção para salvá-lo como um PDF ou documento novamente.
Existe um?
software-rec
pdf
ocr
slhck
fonte
fonte
Respostas:
Você pode baixar o teste de 30 dias do Adobe Acrobat Pro e use a função 'Reconhecimento de texto OCR' ('Document & gt; Reconhecimento de texto OCR & gt; Reconhecer texto usando OCR ...'). Na caixa de diálogo de configurações, escolha 'Imagem pesquisável' como o estilo de saída. Isso manterá a imagem da página, mas incorporará o texto do OCR para que o documento seja pesquisável e permita que o texto seja selecionado, copiado e colado.
Depois de executar o OCR, você precisará confirmar ou corrigir as palavras que o OCR não tem certeza sobre o uso das funções 'Encontrar suspeitas de OCR'.
fonte
Se você tem uma Conta do Google, o Google Docs agora inclui a funcionalidade para fazer upload de um arquivo PDF e realizar o OCR nele.
Eu tentei por mim mesmo e isso faz uma boa tentativa em um PDF reconhecidamente bem formatado.
A formatação é praticamente destruída, mas o texto parece sobreviver.
fonte
Os seguintes produtos foram encontrados listados na Internet, mas eu não os usei.
OCR Online
Terminal de OCR
OCR livre
Servidor de Reconhecimento Maestro é comercial, mas tem uma demonstração on-line.
Software grátis
FreeOCR - apenas para imagens.
pdfsandwich - pdf - & gt; pdf conversor.
fonte
Cuneiforme + hocr2pdf + Ghostscript : Uma solução de código aberto DIY.
Eu postei um responda delineando uma solução envolvendo uma versão do agora open-source Cuneiforme Sistema OCR e hocr2pdf junto com Ghostscript para colocar as páginas em PDF juntas.
Isso foi especificamente para o Linux, mas você também pode obter o Cuneiform e o Ghostscript para Windows. Eu não tenho certeza sobre hocr2pdf ou um equivalente, no entanto.
fonte
Aqui está um método muito estranho, que envolve deixar o índice do Google e o OCR para você em um site e, em seguida, recuperá-lo.
fonte
Instalar Imagemagick . Abra uma janela ou terminal cmd:
A saída será 1 arquivo jpg para cada página em seu pdf, myfile-00.jpg, myfile-01.jpg, etc.
Passe cada imagem através de um programa ocr. Eu não tenho muita experiência com isso, mas parece haver muitas escolhas.
Converta cada página do texto de volta em pdf. Você poderia fazer isso novamente com o imagemagick, mas também há outras maneiras:
fonte
Sua solicitação parece ser uma solução complicada para o problema, embora eu possa não entender o problema corretamente. A qualquer custo:
Por que não obter um gravador de PDF que permitirá que você insira os dados diretamente na página em PDF?
fonte
Experimentar PDFCubed.com Nada para instalar, tudo é feito online. Você pode enviar seus documentos para serem processados via web, email ou caixa de depósito. Os PDFs e TIFs digitalizados são convertidos em PDFs de texto pesquisáveis e podem ser recuperados via web, email ou caixa de depósito.
fonte