Eu tenho um arquivo PDF contendo mapas do prédio em que trabalho, aqui:
http://www.libsys.und.edu/dev/FloorPlans_All.pdf
Os arquivos de origem originais foram perdidos e me pediram para extrair as imagens do mapa, de preferência sem o texto e os ícones que foram sobrepostos em cima deles. Isso provou ser irritantemente difícil.
Até agora, eu tentei os seguintes programas GUI:
- Adobe Reader: permite selecionar o texto, mas não as imagens de fundo
- FoxIt PDF Viewer: deixa-me selecionar texto, mas não as imagens de fundo
- XPDF no Ubuntu 10.10: permite selecionar texto, mas não as imagens de fundo
E também os seguintes programas de linha de comando:
- pdfimages: extrai os ícones indicando banheiros muito bem, mas não as imagens de fundo
- pdftohtml: mesmo que pdfimages, mais ele faz um documento HTML mal marcado
- pdfextract: same as pdfimages
- convert: imagens salvas com sucesso, mas com o texto gravado nelas
Eu até tentei abrir o PDF manualmente em um editor de texto e extrair os objetos de fluxo, colando-os em um novo arquivo e salvando-o com uma extensão .jpg, .png ou .bmp (cada um por sua vez). Considerando o pouco que sei sobre a estrutura interna dos arquivos PDF, não é surpresa que isso não funcionou.
Então ... existe alguma maneira de recuperar as imagens do mapa desta coisa sem ter o texto e os ícones?
fonte
qpdf
para converter as partes binárias em ASCII o máximo possível. (2) Use um editor de texto para tornar todo o texto invisível que eu não quero ver na tela ou em impressões (pode ser conseguido facilmente e sem danos à tabela XRef, alternando o sinalizador invisível ). (3) Re-destile o resultado com Ghostscript para reduzir seu tamanho, tanto quanto possível. - Infelizmente, o seu arquivo não está mais disponível para download para demonstrar o procedimento ...Respostas:
Você pode fazer o download da biblioteca XPDF em http://www.foolabs.com/xpdf/download.html para Linux e Windows. Em seguida, execute
pdfimages -j input.pdf output
e você deve obteroutput-000.jpg
,output-001.jpg
etc. Além disso, confira http://linuxcommand.org/man_pages/pdfimages1.html para mais opções de uso.fonte
Ok, depois de brincar com isso por 5 minutos, minha análise é que o PDF é ainda mais estranho do que eu pensava, e isso é dizer alguma coisa.
Não sabe qual é o seu orçamento, mas com o Acrobat Pro Extended 9, você pode usar:
A. Ferramentas, Edição Avançada, Ferramenta de Texto de Retoque
B. Ferramentas, edição avançada, ferramenta de objeto de retoque
-Selecione o objeto (você pode obter a maioria, mas não todos, deles (por exemplo, os ícones dos computadores dos alunos não podem ser selecionados) e, em seguida, excluir
Veja como ficou a página 1 após uma limpeza rápida: http://dl.dropbox.com/u/7434256/p1test.pdf
fonte
/AA
operador (para Ação Automática ), tornando-se um arquivo PDF potencialmente perigoso. O Ghostscript foi capaz de reduzi-lo a 60 kByte sem perder nenhum conteúdo visível. (Os metadados contidos no arquivo se espalham por 17 objetos diferentes. Os metadados sugerem que há 17 revisões / modificações diferentes desse arquivo desde sua criação em 2011-01-18.)Pegue o PDF que foi feito por Craig H e otimize-o um pouco, executando-o através do Ghostscript. No Windows, a linha de comando é:
No Linux / Unix / Mac OS X, faça:
Isso reduzirá o tamanho do arquivo de 3.000 kByte para cerca de 60 kByte sem perder conteúdo. Em seguida, importá-lo para o Inkscape (ou InDesign, Illustrator, ...) deve ser muito mais rápido ....
fonte
... você poderia tentar o Photoshop. Ele lê o PDF, e é "possível", originou-se no PS e, possivelmente, ainda tem as camadas ... mas é muito longo.
fonte
Em um ambiente Linux eu usei o pdfmod para extrair todas as imagens de uma só vez. Veja https://wiki.gnome.org/Apps/PdfMod ou, para usuários do Ubuntu, https://apps.ubuntu.com/cat/applications/pdfmod/
Para baixar e instalar no Ubuntu, basta digitar
sudo apt-get install pdfmod
.pdfmod
painel ou no terminal da linha de comando)export n images
, com n o número apropriado). Você também pode acessar este comando passando o mouse sobre a seleção e ativando o menu local (clique com o botão direito do mouse para o destro).Espero que isto ajude.
fonte
Abra o documento na tela, amplie a imagem para torná-la o maior possível, mas tudo ainda estará visível. Pressione alt + prnt scrn (ou o equivalente em seu sistema operacional) e ele deve fazer uma captura de tela do programa. Agora abra a pintura ou o seu editor de imagem favorito (photoshop, gimp, etc) cole na foto e recorte tudo o que você não quer.
fonte