Diferença de arquivo inteligente em PDF

9

Eu tenho um documento do LibreOffice que converti para PDF em algum momento, usando os recursos internos. O registro de data e hora no PDF é posterior ao documento de processamento de texto, o que faz sentido, mas não tenho certeza absoluta de que o documento de processamento de texto produz exatamente esse PDF. O documento tem 20 páginas, portanto, não é uma boa ideia verificá-lo manualmente.

Uma possibilidade é refazer o PDF em uma pasta diferente e fazer uma comparação binária dos dois PDFs. Infelizmente, a linha de comando diffindica que os "arquivos binários são diferentes".

Existe um "diff binário inteligente" que me ajudará a determinar se a diferença está apenas nos metadados ou em alguma diferença não conseqüente?

H2ONaCl
fonte

Respostas:

13

Em geral, é uma boa idéia verificar se command + extensão de arquivo é o que você está procurando. diff + pdf resulta em diffpdf .

sudo apt-get install diffpdf

O DiffPDF é usado para comparar dois arquivos PDF. Por padrão, a comparação é do texto em cada par de páginas, mas a comparação da aparência das páginas também é suportada (por exemplo, se um diagrama for alterado ou um parágrafo reformatado). Também é possível comparar páginas ou intervalos de páginas específicos. Por exemplo, se houver duas versões de um arquivo PDF, uma com as páginas 1 a 12 e a outra com as páginas 1 a 13 por causa da adição de uma página como página 4, elas poderão ser comparadas especificando dois intervalos de páginas, 1 -12 para o primeiro e 1-3, 5-13 para o segundo. Isso fará com que o DiffPDF compare as páginas nos pares (1, 1), (2, 2), (3, 3), (4, 5), (5, 6) e assim por diante, com (12, 13).

insira a descrição da imagem aqui

Fonte: Ubuntugeek.com .

Rinzwind
fonte