Meu PDF contém 600 páginas com imagens de texto. Possui 2 camadas .
Camada 1: Imagem colorida de plano de fundo
Camada 2: imagem de texto
Gostaria de remover todas as camadas da imagem de plano de fundo no arquivo PDF total, como mostrado na imagem.
Você poderia me sugerir algum software / ferramenta?
Respostas:
Visão geral
O que você procura são ferramentas como o Scan Tailor e o não papel que são capazes de limiar , remoção de pontos e remoção de ruído . Ambas as ferramentas funcionam com imagens em vez de arquivos PDF, mas você pode converter facilmente entre os diferentes formatos que esses aplicativos usam e PDF usando as ferramentas descritas no final desta resposta.
ScanTailor
Você pode encontrar um tutorial em vídeo aqui . Uma documentação mais extensa está disponível no wiki oficial . Você provavelmente estará mais interessado na página sobre modo de saída em preto e branco e configurações de filtro .
Desaperte
Ainda não trabalhei
unpaper
comigo mesmo. Pelo que entendi, ele tem muito mais recursos do que o ScanTailor, mas também é muito mais difícil de dominar.Não há interface GUI e você terá que confiar em opções de linha de comando para concluir seu trabalho. Por outro lado, isso significa que as conversões com
unpaper
podem ser facilmente automatizadas usando scripts.Você pode encontrar alguns exemplos de script relacionados à conversão de uma digitalização para preto e branco e à remoção do plano de fundo aqui .
Algumas ferramentas úteis ao trabalhar com papel não-impresso e ScanTailer
Não tenho tempo suficiente para escrever um tutorial completo sobre o ScanTailor e o unpaper¹, mas aqui estão algumas dicas sobre a conversão entre
.pdf
e os formatos de imagem suportados por essas ferramentas:Você pode usar
pdfimages
para converter documentos PDF em.ppm
arquivos de página única , os quais podem ser lidosunpaper
.Exemplo de uso:
O ScanTailor não aceita
.ppm
arquivos como entrada. Você precisará convertê-los para outro formato como o.png
primeiro sem perdas .mogrify
fora doimagemagick
conjunto de ferramentas pode fazer isso por você.Exemplo de uso:
O formato de saída do ScanTailor e o não papel são
.tiff
arquivos de página única . Para convertê-los novamente.pdf
, sugiro usartiffcp
etiff2pdf
.Exemplo de uso:
Instalação
Este comando instalará todas as ferramentas mencionadas acima:
¹: Para quem estiver lendo isso, sinta-se à vontade para compilar uma resposta mais extensa com base no ScanTailor e / ou no papel.
fonte
Acabei de encontrar uma solução muito simples:
instalar
gscan2pdf
.Abra
gscan2pdf
e importe o PDF.ferramentas-> limiar. O padrão de 80% funcionou bem para mim.
salve o PDF em outro local.
fonte
talvez o editor Mestre de PDF possa ajudá-lo, embora ainda não tenha encontrado isso automaticamente nas 600 páginas.
fonte