Descobrindo metadados sobre um PDF

32

Suponha que eu tenha um PDF e deseje obter os metadados disponíveis para esse PDF. Qual utilitário devo usar?

Acho que a informação que mais me interessa é o tamanho do papel, algo que os visualizadores de PDF geralmente não relatam. Por exemplo, a carta do tamanho do PDF é legal, A4 ou outra coisa? Mas as outras informações disponíveis também podem ser interessantes.

EDIT: Aqui está um guia útil para tamanhos de papel, graças a @terdon.

Faheem Mitha
fonte
1
Esquisito. Por que alguém rebaixou essa pergunta? Gostaria de explicar?
Faheem Mitha

Respostas:

39

Uma das ferramentas canônicas para isso é pdfinfo, que vem com o xpdf, se bem me lembro. Exemplo de saída:

[0 1017 17:10:17] ~/temp % pdfinfo test.pdf
Creator:        TeX
Producer:       pdfTeX-1.40.14
CreationDate:   Sun May 18 09:53:06 2014
ModDate:        Sun May 18 09:53:06 2014
Tagged:         no
Form:           none
Pages:          1
Encrypted:      no
Page size:      595.276 x 841.89 pts (A4)
Page rot:       0
File size:      19700 bytes
Optimized:      no
PDF version:    1.5
Ulrich Schwarz
fonte
1
No Debian, pelo menos, isso faz parte do poppler-utils. Eu tenho um arquivo aqui que pdfinfo relata como 595,2 x 841,44 pts. Mas isso não é relatado como A4. O que decide marcá-lo como A4?
Faheem Mitha
2
Os nomes são codificados : a letra é 612 ± 0,1 x 792 ± 0,1, os tamanhos mágicos para DIN / ISO A são (todos ± 1 pt): 3370,98, 2383,64, 1685,49, 1191,82, 842,74, 595,91, ..., pelo que parece sua página é um pouco estreita demais para pdfinfocaptar isso.
Ulrich Schwarz
Entendo, o pouco de código if ((fabs(w - 612) < 0.1 && fabs(h - 792) < 0.1) || (fabs(w - 792) < 0.1 && fabs(h - 612) < 0.1))?
Faheem Mitha
Essa é a letra, os formatos A estão em loop com os sqrt(2)s.
Ulrich Schwarz
13

Outro utilitário que vale a pena examinar é o exiftool . Pode não ser a ferramenta certa no seu caso específico, pois não relata nenhuma informação sobre a geometria do documento, mas, em geral, é provavelmente a ferramenta mais completa para examinar os metadados do PDF.

Aqui está um exemplo de comando que imprimirá todas as meta informações disponíveis ( -a), classificadas por groups ( -G1):

exiftool -a -G1 "$File"

A documentação oficial oferece uma visão geral das tags relacionadas a PDF suportadas:

Você pode instalar o exiftool no Debian / Ubuntu com:

sudo apt-get install libimage-exiftool-perl

Se você gosta mais do lado da GUI, pode dar meu projeto gosta PDFMtEd . É um conjunto de ferramentas que serve como interface gráfica para o exiftool e permite visualizar e editar os metadados do PDF.

Aqui estão algumas capturas de tela:

insira a descrição da imagem aqui

insira a descrição da imagem aqui

Glutanimado
fonte