Como salvar um arquivo PDF de imagem como imagem?

33

Eu tenho um PDF que contém uma imagem digitalizada de um documento. Desejo salvar o conteúdo deste PDF como uma imagem para poder executá-lo em um programa de OCR que aceite apenas arquivos do tipo .jpg, .png e .gif.

Como salvar / converter este PDF em um desses formatos de imagem?

Edição: Uma maneira que eu encontrei para fazer isso é clicar em cada página. Copiar para área de transferência. Cole no Paint.net e salve. No entanto, isso é complicado, pois parece que você só pode selecionar uma página por vez no Acrobat Reader.

Cara
fonte

Respostas:

20

Preste muita atenção à resposta de pooryorick , na qual ele aponta como a resposta de sleske é realmente uma resposta muito melhor para esse problema em particular.


Use o GhostScript . Este comando funciona para mim:

gs -dBATCH -dNOPAUSE -sDEVICE=png16m -dGraphicsAlphaBits=4 -dTextAlphaBits=4 -r150 -sOutputFile=output%d.png input.pdf

Existem vários pseudo-dispositivos png, diferenciando a profundidade da cor: pngmono, pnggray, png16, png256, png16m e pngalpha. Escolha o que melhor lhe convier.

Você também pode usar jpeg, mas, a menos que tenha um problema de espaço em disco, deseja uma qualidade tão alta quanto possível para gerenciar seu OCR, e isso não é jpeg.

O GhostScript não tem mais suporte para gif, mas não consigo imaginar por que você precisaria disso, com suporte para png256.

wfaulk
fonte
Eu amo GhostScript, e se você quiser a conveniência de uma interface gráfica para a definição de opções, visualização, etc tentar GSview pages.cs.wisc.edu/~ghost/gsview
Dennis
A saída será uma imagem enorme?
Xonatron
11
@Xonatron: Não. Uma imagem por página. O %dnome do arquivo de saída é uma variável que é substituída pelo número da página. (Quase certamente números brutos, não o número dentro do PDF.)
wfaulk
20

Instale o Imagemagick . Abra uma janela ou terminal do cmd:

convert myfile.pdf myfile.jpg

A saída será 1 arquivo jpg para cada página do seu pdf, teste-0.jpg, teste-1.jpg, etc.

DaveParillo
fonte
+1 para o ImageMagick, mas -2 por sugeri-lo para o trabalho errado. O JPEG é bom para fotos, mas é o pior formato para usar quando você tem egdes nítidos e altos contrastes (como normalmente ocorre com texto / caracteres em preto sobre fundo branco). Além disso, o ImageMagick não realiza o trabalho de conversão, ele usa o Ghostscript em segundo plano como seu escravo "delegado". Então, fazer isso com o Ghostscript diretamente oferece mais controle sobre os parâmetros usados. E então escolha TIFF (não JPEG) como formato de saída, pelo amor de Chris!
Kurt Pfeifle
11
Nota no Windows, certifique-se de instalar o Ghostscript 32 bits primeiro.
Utilizador
2
Esteja ciente do density, depthe qualitybandeiras que podem ajudar você a otimizar sua saída. Por exemplo: convert -density 300 -depth 8 -quality 85 a.pdf a.png Mais informações
Nick
13

Há também pdfimagesa partir das ferramentas Xpdf (disponível a partir do local de XpdfReader ). Não converterá uma página PDF inteira em uma imagem, mas extrairá imagens incorporadas de um PDF.

Isso é útil se o PDF contiver texto e imagens e você desejar apenas as imagens. Além disso, ele extrairá as imagens em seu formato original, para que não haja perda de qualidade (diferentemente dos programas que renderizam a página inteira e a convertem em, por exemplo, JPEG). Dependendo das suas necessidades, isso pode ser útil.


Uso simples:

pdfimages -j -list mydocument.pdf mydocument-images

Isto irá ler o arquivo de entrada mydocument.pdf, extrair todas as imagens e gravá-los para indivíduo arquivos chamados mydocument-images-0000.jpg, mydocument-images-0001.jpgetc.

O Option -jpermite gravar imagens compactadas em JPEG incorporadas como arquivos JPEG, não como arquivos PBM / PGM / PPM (que são descompactados e enormes). Observe que as imagens ainda podem ser gravadas como arquivos PBM / PGM / PPM, se é assim que foram armazenadas no arquivo de entrada PDF.

sleske
fonte
Para referência, o uso simples é o pdfimages -j "yourinputfile.pdf" "outputimages"que criará "outputimages-0000.ppm" (ou "outputimages-0000.jpg" se eles estiverem no formato correto). Exemplos .NET podem ser enxertados de aqui ou aqui
drzaus
A ressalva é que ele pode não ser capaz de salvar o arquivo como um JPG, mas sim uma PPM
drzaus
11

Você pode fazer isso usando o Adobe Reader:

  1. Clique na imagem. Será destacado.
  2. Copie (Ctrl-C) e cole-o no Paint.
  3. Salve como qualquer tipo de arquivo que desejar.
Hemant
fonte
2
interessante saber, o Adobe Reader possui uma configuração para substituir o dpi das imagens capturadas com a ferramenta de instantâneo. Quando definido como 300 dpi, você obtém instantâneos prontos para impressão (por padrão, a resolução da tela é obtida, que geralmente é muito baixa). reutilizar em outro trabalho)
Stijn Sanders
3
+1 por simplicidade. A maioria dos leitores de PDF permite que você faça isso.
Decio Lira
4
E se o seu PDF tiver 10000 páginas de imagens? Você tem que fazer isso 10000 vezes?
Guy
9

Exceto pela resposta que menciona o pdfimages, todas as outras respostas não mencionam que suas soluções realmente transcodificam as imagens incorporadas. Ou seja, essas soluções não extraem simplesmente a imagem original, mas a modificam, possivelmente em detrimento da imagem, durante o processo. Somente o pdfimages extrai a imagem original. Isso vale para Ghostscript, Imagemagick, Adobe Reader, PDFFill, PDF Xchange Viewer, OS X Preview e a maioria dos outros softwares PDF.

pooryorick
fonte
Dado o contexto da questão, esse é realmente um ponto muito bom.
Wfaulk 23/07
FWIW, "PDFill PDF Tools" permite que você defina o DPI para salvar como imagem, muito útil. Assim, cada página (começando do texto, imagens, quaisquer objetos) é salva, por exemplo, em um PNG de alta resolução em 4961x6520.
Chris O
4

O PDFill PDF Tools é provavelmente a maneira mais fácil de converter seus PDFs em imagens no Windows. Ele permitirá que você exporte todas as páginas do PDF para separar as imagens de uma só vez. Ele também possui muitos outros recursos disponíveis gratuitamente, disponíveis apenas em outros visualizadores de PDF se você comprar a versão comercial ou "Pro".

Use o botão "Converter PDF em imagens" (botão 10) na imagem abaixo.

Imagem do PDFill PDF Tools

Se você precisar concatenar as imagens em uma imagem muito alta, para alimentar apenas um arquivo no seu programa de OCR, use o IrfanView

roubar
fonte
observe que isso instalará duas ferramentas diferentes no seu sistema. O principal deles é o PDFill Editor, que você não precisa. Vá para o menu Iniciar para abrir este. Fui salvo pela captura de tela ao perceber que havia algo errado antes de desinstalar.
Ufotds
Sim, acho que não mencionei que ele também instala uma versão shareware do PDFill Editor, bem como uma impressora PDF. Todos os arquivos criados com o PDFill Editor terão uma marca d'água, a menos que você compre o editor por US $ 19,99, mas o utilitário PDFill PDF Tools Free não requer nenhuma compra. Na versão que tenho, você não pode desinstalar o PDFill Editor sem desinstalar o PDFill PDF Tools Free, mas ter o PDFill Editor instalado não prejudica nada.
rob
2

Como você não incluiu uma tag do SO, incluirei uma resposta do OSX:

Por padrão, os PDFs são abertos no Preview.app, que permite usar File -> Save-As:

  • GIF
  • ICNS
  • JPEG
  • JPEG-2000
  • BMP
  • OpenEXR
  • Photoshop
  • PNG
  • TGA
  • TIFF
Lago
fonte
1

Também PDF Xchange Viewer (Grátis) fará a exportação para o arquivo. Arquivo → Exportar → Exportar para imagem.

Não apenas isso, mas acho que é o melhor visualizador de PDF gratuito para Windows, e possui alguns recursos de marcação interessantes. Eu tenho uma licença para o Adobe Acrobat e ainda prefiro isso, a menos que esteja fazendo uma edição extensa, o que raramente acontece.

wfaulk
fonte
Isso pareceu promissor, até que descobri que a opção de exportar para imagem está desativada para PDFs protegidos por senha.
Mitch
1

(Não gratuito) O profissional Acrobat faz isso:

Avançado-> Processamento de documentos-> Exportar todas as imagens ...

ufotds
fonte
0

Se o arquivo tiver menos de 5 MB e você não estiver preocupado com privacidade / confidencialidade, é um prático serviço on-line em http://www.go2convert.com/ que pode fazer muitas conversões gráficas (incluindo pdf para jpeg)

sgmoore
fonte
Apenas tentei e deu a mensagem de erro "Desculpe! Esta imagem não pôde ser convertida corretamente."
Guy
-1

Se a imagem exceder o tamanho da sua tela, você poderá usar o FastStone Capture (o recurso "Janela de rolagem da captura") e salvar a imagem como JPEG.

texto alternativo

Gaff
fonte
Essa é uma maneira muito indireta de capturar uma imagem. O OP já tem uma solução melhor (marque a página no Acrobat).
sleske