Alguém tem alguma recomendação ou procedimento para reparar um PDF corrompido? Quando abro o arquivo, obtenho "Ocorreu um erro ao abrir este documento. O arquivo está danificado e não pode ser reparado". Parece haver uma infinidade de ferramentas por aí, mas nenhuma que eu possa descrever como respeitável. Existe alguma solução baseada em Linux de código aberto para isso, possivelmente?
pdf
repair
ghostscript
Tim Alexander
fonte
fonte
Respostas:
O Ghostscript reparará seu PDF corrompido automaticamente ... se ele puder ser aberto (se não estiver danificado além do reparo). Mas depois você ainda precisará verificar o resultado ...
No Linux, tente este comando:
No Windows, tente este:
fonte
Eu tinha um arquivo PDF corrompido
print.pdf
, que o Ghostscript não pôde abrir, mas os visualizadores gráficos comuns do Linux em PDF (Okular, Evince) abriram bem. (No meu caso, o arquivo tinha lixo no início, em vez de um cabeçalho PDF, quando aberto em um editor hexadecimal.)Esses visualizadores de PDF usam o Poppler como um renderizador de PDF de back-end. Assim, você pode reparar o PDF usando as ferramentas de linha de comando do Poppler. No Ubuntu, eles estão no
poppler-utils
pacote. Eu usei:que gerou um arquivo PDF com cabeçalhos corretos, que ferramentas como Ghostscript agora aceitam.
fonte
mutool
( página do projeto , página de manual ) reparará PDFs quebrados sem imprimi-los .sudo apt-get install mupdf-tools
mutool clean input.pdf output.pdf
Como alternativa, existem algumas ferramentas e estruturas que podem decompor / descompilar PDFs em seus componentes sem renderizá-los. Isso pode ser útil para extrair texto, scripts e imagens. Consulte esta resposta para obter uma lista dessas ferramentas: https://reverseengineering.stackexchange.com/q/1526/8210 . Por exemplo, você pode tentar a resposta atual atual do Origami , que possui um visualizador baseado em GTK.
fonte
mutool clean
não corrige todos os erros possíveis. Eu tenho um arquivo que possui vários erros nos fluxos de fonte e conteúdo, e o mutool manterá esses erros.Eu tinha um arquivo pdf corrompido, porque o arquivo php usado para fazer o download ecoou alguns erros (em HTML) e caracteres NUL no final.
A solução foi abrir o pdf com o Notepad ++ e remover todo o texto após a linha
fonte
%%EOF
. Eu apaguei tudo após o primeiro%%EOF
usando um editor hexadecimal. Agora tudo funciona bem.