Possível duplicação:
qual software gratuito posso usar para mesclar as imagens digitalizadas
Eu tenho vários PDFs compostos de digitalizações de páginas de livros. As digitalizações são feitas de duas páginas por vez e algumas dessas são inclinadas, fazendo o texto parecer levemente inclinado.
Estou procurando uma ferramenta que me permita fazer uma otimização automática, limpando as varreduras sem perder a legibilidade. Encontrei o software GPL Briss para cortar as digitalizações para ter uma proporção de 1: 1 página em vez de 2: 1, mas não tenho nenhuma ferramenta para alinhar as páginas.
Eu tropecei no unpaper , outra ferramenta de código aberto que parece perfeita para o que eu quero fazer, mas essa ferramenta é apenas Linux e não funciona diretamente em arquivos PDF.
Qualquer dica é apreciada.
fonte
Respostas:
Dê uma olhada no deskew . É uma ferramenta de linha de comando. O download * zip parece incluir binários para Windows, MacOSX e Linux.
A licença é MPL (Mozilla) ou LPGL (GNU), o que você preferir.
A única desvantagem para você parece ser que ele não consome PDFs, apenas imagens PNG e TIFF (AFAICS). Isso significa que você precisará configurar um fluxo de trabalho de s.th. gostar:
Eu ainda não testei, apenas encontrei o site recentemente e o marquei como favorito.
fonte
deskew
consegui corrigir a distorção relacionada à rotação em minha execução de teste, mas infelizmente introduziu uma fina linha cinza na posição da borda da imagem original. Para me livrar da borda cinza, recortei as imagens com a-extent
opção demogrify
. Eu testei apenas no OS X, talvez esse comportamento inadequado seja específico da plataforma.deskew
funciona muito bem. Meu trabalho é assim: pdfimages-all <pdf> my_images
→ JBIG2-s -p -v my_images* > output
→pdf.py output > deskewed.pdf
Se bordas pretas (resultado da operação deskewing) incomoda, algum processamento com imagemagick pode ser necessário, como sugerido por @StefanSchmidtOh, deixe-me adicionar outra resposta. Acabei de me lembrar do netpbm . Não o uso há anos, mas acho que devo dar uma nova olhada ...
O netpbm é um kit de ferramentas muito poderoso para a linha de comando manipular imagens gráficas. Ele envia quase 300 ferramentas separadas. Inclui conversores para cerca de 100 formatos gráficos.
E também possui uma ferramenta de linha de comando que pode girar imagens:
E tem outra ferramenta que tenta descobrir o ângulo das imagens rotacionadas:
pamtilt
retorna um número flutuante de sua estimativa da rotação da imagem. Portanto, a desconexão automática das imagens deve estar ao seu alcance. Um script de shell pode ser escrito para fazer isso. Exigiria etapas diferentes:pamtilt
para descobrir automaticamente o ângulo de inclinação da imagem.pnmrotate
para reduzir a inclinação da imagem.Se você me fornecer acesso a uma pequena amostra de seus arquivos PDF, eu poderia tentar criar um script de shell para realizar o feito.
(Estou pensando muito que [netpbm] não parece ter uma tag aqui no superusuário + stackoverflow.)
fonte