Filtrando imagens meio "tonificadas" para processamento de OCR

10

Eu tenho um material PDF digitalizado no qual desejo adicionar a camada de texto oculto, para poder indexar o documento. Usei o dispositivo de saída tiff em preto e branco ghostscript (tiffg4) para extrair páginas como imagens tiff, e aqui está um exemplo de como elas são:

insira a descrição da imagem aqui

O processamento desta imagem com o tesseract não produz bons resultados.
A alteração do DPI de saída do ghostscript (600, 300, 150, 96) mostra que a imagem em 96 DPI fornece o melhor resultado do tesseract, mas ainda não é satisfatória.

Agora, pensei em pedir conselhos sobre qual filtro melhoraria essa imagem para o processamento de OCR.

Eu poderia usar imagemagick ou numpy / scipy / ndimage

zetah
fonte

Respostas:

2

você pode remover isso usando um filtro passa-baixo. isso é feito no espaço de frequência ou apenas leva a (diferença de) gaussiana da imagem.

passa baixo gaussiano, então diferença de gaussianos para afiar

Christoph Rackwitz
fonte