Hoje, recebi um PDF de nosso fornecedor e ele continha várias páginas impressas e digitalizadas com assinaturas etc. Abri no Acrobat Reader DC. Mas, para minha surpresa, o texto das imagens digitalizadas evidentemente poderia ser selecionado e copiado como um texto. Veja a captura de tela:
Evidentemente, existe algum OCR por trás disso, pois o texto copiado contém erros. Mas como isso é possível? Eu nunca vi isso antes, como isso pode ser criado?
pdf
adobe-acrobat
adobe-reader
ocr
Vojtěch Dohnal
fonte
fonte
Respostas:
Isso tem (ao contrário de outras respostas aqui) provavelmente não tem nada a ver com o Acrobat.
A maioria (todos ?!) dos scanners de documentos profissionais e a maioria dos semi-profissionais executam automaticamente o OCR quando você escolhe "Salvar como PDF" e tem a caixa de seleção "pesquisável" marcada nas configurações. Os modelos mais baratos de "grau de consumidor" farão o OCR no PC conectado, os scanners de rede típicos o farão internamente.
A palavra "pesquisável" significa nada mais e nada menos que o scanner executará o OCR, gerará uma página com os bitmaps digitalizados e os cobrirá com caracteres invisíveis do OCR, cada um colocado sobre o respectivo caractere no bitmap.
Dessa forma, você pode pesquisar e também selecionar, copiar e colar o "bitmap" como que por mágica. Não é mágica, no entanto. Na realidade, você está apenas copiando texto invisível.
O scanner também pode fazer algumas mágicas adicionais, como compor a imagem grande de muitos blocos pequenos que também são reutilizados. Isso resulta em um tamanho de documento muito menor do que seria realmente possível, mas também pode levar a surpresas engraçadas (não tão engraçadas se acontecerem com você!), Como a Xerox altera a história de suas contas , ironicamente, mesmo quando não há OCR, dependendo no firmware.
fonte
Basicamente, um programa executa OCR no arquivo de entrada e, em seguida, coloca uma camada invisível de texto sobre a imagem. Como alternativa, também pode colocar uma camada visível de texto embaixo da imagem, dando o mesmo efeito.
Quando você seleciona algo, a imagem não importa, porque a camada de texto é selecionada.
Existem várias maneiras. Como o Acrobat já foi sugerido, adicionarei algumas opções gratuitas (e felizmente você não é obrigado a ter o Windows para usá-las).
Visualizador de PDF-XChange
Este é um programa Windows nativo da Tracker Software . A versão do freeware funciona bem no Wine se você usar a edição de 32 bits em um prefixo de 32 bits; portanto, você pode usá-lo no Windows, macOS e Linux. Nos dois últimos casos, você precisaria do PlayOnMac ou PlayOnLinux, respectivamente.
Aqui está uma foto desta resposta que eu deixei no Ask Ubuntu:
OCRmyPDF
Este é um programa multiplataforma escrito em Python , baseado em Ghostscript, Tesseract e Unpaper. Dos documentos:
Pode ser facilmente instalado nos derivados Debian e Ubuntu:
Ou no macOS:
No Windows, você precisaria usar a imagem do Docker. Consulte os documentos oficiais para obter detalhes.
O uso é muito simples e eu sugiro que você use os parâmetros opcionais
-d
(deskew) e-c
(clean) para obter melhores resultados. Ele endireitará todas as páginas e limpará pequenos pontos / imperfeições antes de executar o processo de OCR.Você pode (e deve) fornecer o idioma
-l
.Aqui está um exemplo deste documento distorcido escrito em italiano:
O comando que eu usei foi:
Ferramentas online
Existem algumas ferramentas online que fazem o mesmo. Notável, o PDF24 hospeda uma versão gratuita do OCRmyPDF baseada na Web que pode ser usada sem limitações.
Veja também:
fonte
Isso possivelmente ocorre devido a um recurso do Acrobat OCR :
fonte
No site da Adobe
fonte