Como remover o plano de fundo da página em escala de cinza de uma digitalização de documento PDF, preservando o texto? (Binarização)

9

Meu PDF contém 600 páginas com imagens de texto. Possui 2 camadas .

  • Camada 1: Imagem colorida de plano de fundo

  • Camada 2: imagem de texto

Gostaria de remover todas as camadas da imagem de plano de fundo no arquivo PDF total, como mostrado na imagem.

insira a descrição da imagem aqui

Você poderia me sugerir algum software / ferramenta?

insira a descrição da imagem aqui

Raghu G
fonte
Qual versão do Ubuntu você está usando?
Mitch
Ubuntu 13.10, 64 bits.
Raghu G
Descrição da pergunta atualizada.
Raghu G

Respostas:

9

Visão geral

O que você procura são ferramentas como o Scan Tailor e o não papel que são capazes de limiar , remoção de pontos e remoção de ruído . Ambas as ferramentas funcionam com imagens em vez de arquivos PDF, mas você pode converter facilmente entre os diferentes formatos que esses aplicativos usam e PDF usando as ferramentas descritas no final desta resposta.

ScanTailor

Você pode encontrar um tutorial em vídeo aqui . Uma documentação mais extensa está disponível no wiki oficial . Você provavelmente estará mais interessado na página sobre modo de saída em preto e branco e configurações de filtro .

Desaperte

Ainda não trabalhei unpapercomigo mesmo. Pelo que entendi, ele tem muito mais recursos do que o ScanTailor, mas também é muito mais difícil de dominar.

Não há interface GUI e você terá que confiar em opções de linha de comando para concluir seu trabalho. Por outro lado, isso significa que as conversões com unpaperpodem ser facilmente automatizadas usando scripts.

Você pode encontrar alguns exemplos de script relacionados à conversão de uma digitalização para preto e branco e à remoção do plano de fundo aqui .


Algumas ferramentas úteis ao trabalhar com papel não-impresso e ScanTailer

Não tenho tempo suficiente para escrever um tutorial completo sobre o ScanTailor e o unpaper¹, ​​mas aqui estão algumas dicas sobre a conversão entre .pdfe os formatos de imagem suportados por essas ferramentas:

  • Você pode usar pdfimagespara converter documentos PDF em .ppmarquivos de página única , os quais podem ser lidos unpaper.

    Exemplo de uso:

    pdfimages *.pdf ./extracted-images
  • O ScanTailor não aceita .ppmarquivos como entrada. Você precisará convertê-los para outro formato como o .pngprimeiro sem perdas . mogrifyfora do imagemagickconjunto de ferramentas pode fazer isso por você.

    Exemplo de uso:

    mogrify -format png *.ppm
  • O formato de saída do ScanTailor e o não papel são .tiffarquivos de página única . Para convertê-los novamente .pdf, sugiro usar tiffcpe tiff2pdf.

    Exemplo de uso:

    tiffcp *.tiff all.tiff
    tiff2pdf -F -p A4 -z -o Document.pdf all.tiff

Instalação

Este comando instalará todas as ferramentas mencionadas acima:

sudo apt-get install scantailor unpaper poppler-utils libtiff-tools

¹: Para quem estiver lendo isso, sinta-se à vontade para compilar uma resposta mais extensa com base no ScanTailor e / ou no papel.

Glutanimado
fonte
O Scantailer funciona mas em arquivos pdf. Você teria que trocá-lo para algum formato de imagem primeiro.
Faça
@ToDo Sim, como indicado na resposta :).
Glutanimado
Eu percebi agora. É melhor organizar a resposta para que todas as informações de cada programa estejam em um bloco.
To
@ToDo A razão original pela qual eu coloquei as ferramentas em uma seção spearate foi porque elas eram relevantes para os não-documentos e para o Scantailor. Você está certo, porém, foi um pouco desorganizado. Eu acho que deveria ser melhor agora
Glutanimate
3

Acabei de encontrar uma solução muito simples:

  • instalar gscan2pdf.

  • Abra gscan2pdfe importe o PDF.

  • ferramentas-> limiar. O padrão de 80% funcionou bem para mim.

  • salve o PDF em outro local.

Noam
fonte
1

talvez o editor Mestre de PDF possa ajudá-lo, embora ainda não tenha encontrado isso automaticamente nas 600 páginas.

Presbitero
fonte