Eu tenho um documento PDF bastante grande (~ 100 MB) com muitas imagens (como ilustrações e imagens de fundo) e gostaria de ter uma cópia desse pdf sem imagens, mas não consigo descobrir como faça isso.
Eu não estou falando sobre convertê-lo em texto apenas, eu gostaria de manter parágrafos / tabelas / colunas múltiplas como elas são.
Estou confortável com a linha de comando e tenho vários computadores com diferentes distribuições que posso usar.
command-line
pdf
Ornux
fonte
fonte
Respostas:
Ele não está nos repositórios, mas você pode encontrar um download ( pré-compilado ou de origem ) no site deles .
Manual :
fonte
Os últimos lançamentos do Ghostscript também podem fazer isso. Basta adicionar o parâmetro
-dFILTERIMAGE
ao seu comando.Existem ainda mais dois novos parâmetros que podem ser adicionados para remover seletivamente os tipos de conteúdo "vetor" e "texto" :
-dFILTERIMAGE
: produz uma saída em que todas as imagens rasterizadas são removidas.-dFILTERTEXT
: produz uma saída em que todos os elementos de texto são removidos.-dFILTERVECTOR
: produz uma saída em que todos os desenhos vetoriais são removidos.Quaisquer duas dessas opções podem ser combinadas. (Se você combinar todos os três, todas as páginas serão apagadas ...)
Exemplos
Aqui está a captura de tela de uma página PDF de exemplo que contém todos os três tipos de conteúdo mencionados acima:
Captura de tela da página PDF original contendo os elementos "imagem", "vetor" e "texto".
A execução dos 6 comandos a seguir criará todas as 6 variações possíveis do conteúdo restante:
A imagem a seguir ilustra os resultados:
Linha superior, da esquerda: todo o "texto" removido; todas as "imagens" removidas; todos os "vetores" removidos. Linha inferior, da esquerda: apenas "texto" mantido; apenas "imagens" mantidas; apenas "vetores" mantidos.
fonte
Embora a resposta @Rinzwind seja a coisa certa , gostaria apenas de comentar a solução "intermediária". Você normalmente pode reduzir bastante o tamanho das imagens usando o ghostscript com
... às vezes é realmente útil para a revisão. A página do manual para escrever PDF está aqui .
fonte
/screen
(entre outras coisas) definirá a resolução das imagens de bitmap para 72 dpi. Então, sim, se você tiver imagens com DPI menor, poderá aumentar o tamanho do arquivo. Esta é a razão pela qual eu usei a palavra "normalmente" (no sentido de "nem sempre, mas com bastante frequência"). Sinta-se livre para votar o que quiser.for s in screen default ; do gs -o /dev/null -sDEVICE=pdfwrite -dPDFSETTINGS=/${s} -c "currentpagedevice {exch ==only ( ) print === } forall" | sort | tee ghostscript---pdfwrite-PDFSETTINGS-${s}--pagedevice-settings.txt; done
. Ele produzirá dois arquivos de texto que você pode comparar usandosdiff -sbB $[file1}.txt ${file2}.txt
. Agora você conhece exatamente e completamente todas as diferentes configurações introduzidas pelo-dPDFSETTINGS=/screen
!/screen
que em/default
--- 72dpi versus 150dpi, otimizado, descartar a visualização EPS ... mas, ei, não é um grande problema. As pessoas testam e escolhem a melhor solução./screen
deu resultados muito ruins. Possivelmente minha memória falha, ou eu a confundi/epub
. O comando que eu dei a você era de memória, porque eu tinha certeza que mostraria o que eu quis dizer. Agora, refiz a execução novamente, não vejo mais o que esperava: mais testes prolongados que fiz alguns anos atrás. Em seguida, muitas fontes (CID? / CFF?) Obtiveram tamanhos de inchaço rasterizados dos PDFs resultantes. Devo voltar a visitar novamente a questão, uma vez que eu tenho mais tempo ... :-)Você pode usar o editor mestre de pdf, excluir essas imagens e salvar como um novo arquivo pdf. Você pode baixá-lo no centro de software Ubuntu.
fonte