Estou procurando um bom programa para me mostrar as diferenças entre dois arquivos pdf semelhantes. Em particular, estou procurando algo que não execute apenas diff em uma versão ascii (com "pdftotext") dos arquivos. É isso que o pdfdiff.py faz.
39
Respostas:
Você pode usar o DiffPDF para isso. A partir da descrição:
fonte
sudo apt-get install diffpdf
.Acabei de descobrir um truque para tornar o DiffPDF (o programa sugerido pelo @qbi) utilizável por mais que pequenas alterações. O que faço é concatenar todas as páginas em PDFs em um rolagem longa usando o pdfjam e depois compará-las. Funciona mesmo quando grandes seções são removidas ou inseridas!
Aqui está um script bash que faz o trabalho:
fonte
Mesmo que isso não resolva o problema diretamente, eis uma boa maneira de fazer tudo isso na linha de comando com poucas dependências:
https://linux.die.net/man/1/pdftotext
Funciona muito bem para comparações básicas de pdf. Se você possui uma versão mais recente do pdftotext, pode tentar em
-bbox
vez de-layout
.No que diz respeito a programas diferentes, eu gosto de usar difuso, então o comando muda um pouco:
http://diffuse.sourceforge.net/
Espero que ajude.
fonte
Se você tiver 2 a 3 arquivos PDF enormes (ou epub ou outros formatos, leia abaixo) para comparar, será possível combinar o poder de:
calibre (para converter sua fonte em texto)
meld (para procurar visualmente as diferenças entre os arquivos de texto)
paralelo (para usar todos os núcleos do sistema para acelerar)
O script abaixo aceita como entrada qualquer um dos seguintes formatos de arquivo: MOBI, LIT, PRC, EPUB, ODT, HTML, CBR, CBZ, RTF, TXT, PDF e LRS.
Se não estiver instalado, instale meld, calibre e paralelo:
Para poder executar o código de qualquer lugar do seu computador, salve o código a seguir em um arquivo chamado "diffepub" (sem extensões) dentro do diretório "/ usr / local / bin".
Verifique se o proprietário é seu usuário e se possui permissões de execução:
Para testá-lo, basta digitar:
Eu o testo para comparar duas revisões de um pdf de +1600 páginas e funciona perfeitamente. Como o calibre é escrito usando python para portabilidade, levou 10 minutos para converter os dois arquivos em texto. Lento, mas confiável.
fonte