Identificação
Encontrei esta ferramenta que parece ser o que você pode usar para identificar arquivos PDF / A. Chama-se DROID (Registro Digital e Identificação de Objeto) . É baseado em Java e pode ser executado a partir de uma GUI ou da linha de comando.
excerto
O DROID é uma ferramenta de software desenvolvida pelo The National Archives para realizar a identificação automatizada de lotes de formatos de arquivo. Desenvolvido por seu Departamento de Preservação Digital como parte de suas atividades mais amplas de preservação digital, o DROID foi projetado para atender aos requisitos fundamentais de qualquer repositório digital, para poder identificar o formato preciso de todos os objetos digitais armazenados e vincular essa identificação a um registro central. de informações técnicas sobre esse formato e suas dependências.
Dado que é patrocinado pelos Arquivos Nacionais, eu diria que é a ferramenta certa para isso, dado o objetivo do formato PDF / A. Além disso, o projeto é de código aberto e o código está disponível no Github , bem como empacotado em formato binário no site do National Archives .
Validação e Conversão
Se você está procurando uma ferramenta para realizar validação e conversão, acredito que o PDFBox possa fazer isso. PDFBox lista a validação de PDF / A na primeira página do site. É outro aplicativo Java 8-).
trecho do site
Validação de PDF / A
Valide PDFs de acordo com o padrão PDF / A ISO.
Na seção de ferramentas da linha de comando, à esquerda da página principal, mostre o seguinte uso da ferramenta:
$ java -jar pdfbox-app-x.y.z.jar org.apache.pdfbox.ConvertColorspace [OPTIONS] <inputfile> <outputfile>
o veraPDF é outra ferramenta capaz de validar PDF / A; faz parte do conjunto de ferramentas de referência da Open Preservation Foundation. É também um aplicativo Java.
Conversão
Para fazer a conversão, encontrei esse método em uma postagem no blog intitulada: Forma gratuita de converter um PDF existente em PDF / A , que usa as seguintes ferramentas:
- Somente Ghostscript 8.64.
- PDFBox 0.7.3
- pdfmarks (arquivo para fornecer metadados adicionais)
- PDFA_def.ps
- USWebCoatedSWOP.icc
Com o exposto acima, você usa o seguinte comando:
$ gs -sDEVICE=pdfwrite -q -dNOPAUSE -dBATCH -dNOSAFER \
-dPDFA -dUseCIEColor -sProcessColorModel=DeviceCMYK \
-sOutputFile=Out_PDFA.pdf PDFA_def.ps pdfmarks IN_PDF.pdf
Não é sem verrugas. O artigo discute um deles, sendo um deles a fixação dos sinalizadores de impressão nos hiperlinks. O artigo fornece um aplicativo Java que você pode usar para corrigir estes:
$ java FixPrintFlag Out_PDFA.pdf New_verifiablePDFA.pdf
Não é bonito, mas parece viável. Veja o artigo para mais detalhes.
Referências
pdfmarks
?Para identificação do arquivo, o comando
file
geralmente é útil. Ele procurará no seu arquivo números mágicos, identificadores de arquivos, informações de codificação etc. para fornecer qualquer informação útil possível.No caso particular de arquivos PDF, o utilitário
pdfinfo
é especialmente útil. No meu caso, uma distribuição do Gentoo, é fornecida compoppler
uma biblioteca de renderização de PDF.fonte
pdfinfo -meta
e observarxmpmeta/RDF/Description/conformance
parece dizer se o PDF é PDF / A (esse nó éA
) ou não (o nó não existe ou tem algum outro valor). É um começo!Aqui está um script de linha de comando do bash fazendo exatamente isso:
Salve-o em um arquivo chamado pdf2pdfa.sh que esteja no seu caminho e chame-o assim:
pdf2pdfa.sh input.pdf
Isso criará input_a.pdf.
fonte
input
? Entendopdf_input
, mas o que éinput
? (3) Você deve sempre citar variáveis do shell, a menos que tenha um bom motivo para não fazê-lo , e tem certeza de que sabe o que está fazendo. Por favor, não responda nos comentários; edite sua resposta para torná-la mais clara e completa.