Como remover o OCR de um PDF?

13

Estou pesquisando no Google há algum tempo, mas não consigo encontrar uma resposta para minha pergunta.

Tenho camadas indesejadas de OCR em um documento que digitalizei recentemente com o Adobe Acrobat. Ele não foi OCR corretamente e quero editar algumas informações, mas o OCR está fazendo com que as informações desejadas sejam apagadas. Eu converti os arquivos para TIFs, mas notei uma perda de qualidade (muito) significativa. Ouvi dizer que a impressão em outro PDF mantém o texto ou reduz a qualidade da imagem.

Agradeço qualquer ajuda para resolver esse problema o mais rápido possível.

Obrigado.

Sanoo
fonte

Respostas:

5

No Acrobat Pro DC, o comando apropriado é "Remover informações ocultas", disponível nas ferramentas "Proteger" e "Redigir".

Ao executar o comando, ele apenas pesquisa as informações ocultas, mas não altera o documento. Você deve informar ao Acrobat quais informações remover. Nesse caso, selecione "Texto oculto" no painel Resultados, clique no botão Remover e salve o documento alterado.

user1125483
fonte
Eu usei o "remover informações ocultas", mas para mim, por algum motivo, apenas remove partes da imagem em determinadas páginas. Obrigado pela sua resposta no entanto.
Sanoo
Isso não é universalmente verdade. De alguma forma (provavelmente erros do macOS PDFKit), meu texto do ABBYY FineReader-OCRed foi corrompido e, ao marcar "Texto oculto" em Redigir → Remover oculto, o texto foi removido sem problemas; Consegui, então, usar com sucesso Aprimorar digitalizações → Reconhecer texto para executar o OCR no próprio Acrobat.
Nicholas Riley
O problema para mim é que, depois de remover o texto oculto, ainda não consigo executar um OCR com o "ClearScan" (ou seja, "Texto e imagens editáveis"). É estranho porque a camada de texto parece ter desaparecido, mas a execução do OCR produz o erro "O Acrobat não pôde executar o reconhecimento porque: a página contém texto renderizável".
user1125483
1

Após muitas experiências, descobri que a impressão no Adobe PDF a partir do Adobe Acrobat imprime o documento sem o OCR e sem perder a qualidade (uma resolução imperceptível à primeira vista é perdida).

No entanto, muitos sites afirmam que isso não funciona. Também tentei outras impressoras, como Foxit Reader e OneNote, mas a qualidade foi reduzida. JPEG também era o mesmo.

Lembre-se de que sua milhagem pode variar.

Nota: Estou deixando este tópico marcado como sem resposta, na esperança de encontrar uma resposta melhor que a minha.

Sanoo
fonte
1

(um ano atrás...)

Se, como você diz, os documentos forem digitalizados e não forem impressos em PDF a partir do Word, por exemplo, você poderá remover facilmente com o Adobe:

Selecione Documento, Examine Documento e agora você pode remover o texto oculto (OCR).

Fran
fonte
Obrigado pela sua resposta. Vou testá-lo o mais rápido possível e informá-lo. Obrigado pela resposta!
Sanoo
Eu já havia comentado sobre isso, mas o problema é que tenho o Acrobat DC Pro e esses menus foram removidos. Obrigado pela sua resposta de qualquer maneira.
Sanoo 17/07/16
1

No Acrobat Pro: use 'remover informações ocultas' (em 'proteção'). Selecionar tudo, executar, OCR se foi

jazzzz
fonte
1

No Acrobat X, em Proteção, há um botão Sanitize Document que remove TUDO, mas o que pode ser visto (incluindo a camada de texto do OCR), convertendo o documento em um mapa de bits achatado.

Dave
fonte
0

Eu construí uma ferramenta para fazer esse Redator de PDF gratuito . Se você fizer o upload da imagem e apenas clicar em redigit, achatará seu pdf e removerá o OCR. Se você quiser, também pode desenhar marcas de redação no documento.

levinologia
fonte