Preciso processar alguns arquivos PDF. A tarefa consiste em trocar um determinado arquivo de imagem por outro. Meu primeiro problema é como substituir uma imagem PDF da linha de comando em um processo em lote. Em seguida, tentarei resolver outros problemas, como identificar qual é a imagem que preciso substituir (porque os arquivos PDF podem ter mais de uma imagem). Mas primeiro quero resolver o primeiro problema: como substituir uma imagem em um PDF por outra.
Eu li sobre poppler-utils e pdftk, mas até onde eu sei, nenhuma dessas ferramentas permite substituir imagens em PDF.
command-line
pdf
images
Ivan
fonte
fonte
Respostas:
OK ... Eu acho que
pdflatex
é a peça que falta aqui.O OP disse que investigou
poppler-utils
epdftk
. Deixe-me adicionar a issopdfimages
. Estes, juntamente compdflatex
são os pedaços de uma solução.No código de exemplo acima,
pdfimages
analisa as páginas 4 a 20target.pdf
e extrai todas as imagens em arquivos com nomes começandoimageroot
.poppler-utils
fornecepdftotext
. Eu recomendo a-layout
opção que faz um ótimo trabalho mantendo o documento legível.A objeção do OP à
imagemagick
solução oferecida pelo pidosaurus é que uma imagem não possui texto extraível. Com os utilitários que descrevi, o OP agora terá todas as imagens e todo o texto extraído, e os números de páginas e o conteúdo serão retidos pela-layout
opção. O OP pode identificar a página correta do texto e inseri-la em um.tex
arquivo que termina com uma%includegraphics
diretiva e se refere à imagem de substituição pelo nome do arquivo. Você então fazpdflatex
isso e acaba com um novo .pdf de página única para inserir no restante do documentopdftk
. Se você soubesse onde no texto da página original residia a imagem, poderá%includegraphics [h]
obtê-la exatamente no lugar certo.fonte