Estou pesquisando no Google há algum tempo, mas não consigo encontrar uma resposta para minha pergunta.
Tenho camadas indesejadas de OCR em um documento que digitalizei recentemente com o Adobe Acrobat. Ele não foi OCR corretamente e quero editar algumas informações, mas o OCR está fazendo com que as informações desejadas sejam apagadas. Eu converti os arquivos para TIFs, mas notei uma perda de qualidade (muito) significativa. Ouvi dizer que a impressão em outro PDF mantém o texto ou reduz a qualidade da imagem.
Agradeço qualquer ajuda para resolver esse problema o mais rápido possível.
Obrigado.
fonte
Após muitas experiências, descobri que a impressão no Adobe PDF a partir do Adobe Acrobat imprime o documento sem o OCR e sem perder a qualidade (uma resolução imperceptível à primeira vista é perdida).
No entanto, muitos sites afirmam que isso não funciona. Também tentei outras impressoras, como Foxit Reader e OneNote, mas a qualidade foi reduzida. JPEG também era o mesmo.
Lembre-se de que sua milhagem pode variar.
Nota: Estou deixando este tópico marcado como sem resposta, na esperança de encontrar uma resposta melhor que a minha.
fonte
(um ano atrás...)
Se, como você diz, os documentos forem digitalizados e não forem impressos em PDF a partir do Word, por exemplo, você poderá remover facilmente com o Adobe:
Selecione Documento, Examine Documento e agora você pode remover o texto oculto (OCR).
fonte
No Acrobat Pro: use 'remover informações ocultas' (em 'proteção'). Selecionar tudo, executar, OCR se foi
fonte
No Acrobat X, em Proteção, há um botão Sanitize Document que remove TUDO, mas o que pode ser visto (incluindo a camada de texto do OCR), convertendo o documento em um mapa de bits achatado.
fonte
Eu construí uma ferramenta para fazer esse Redator de PDF gratuito . Se você fizer o upload da imagem e apenas clicar em redigit, achatará seu pdf e removerá o OCR. Se você quiser, também pode desenhar marcas de redação no documento.
fonte