O que faz com que o tamanho do arquivo PDF aumente ao salvar na Visualização?

17

Parece que fazer edições, anotações ou até mesmo abrir e salvar um arquivo PDF na Visualização causará um aumento significativo no tamanho do arquivo. Percebi que, para alguns livros que digitalizei, isso também melhora o tempo de renderização da página.

Alguém pode esclarecer o que está acontecendo para causar essas mudanças? Estou interessado em sincronizar anotações de e-books em PDF entre o Preview e o iPad (talvez o GoodReader), mas isso pode ser impraticável com arquivos PDF grandes.

Alex B
fonte
2
Isso provavelmente se deve à maneira como eles decidiram codificar os PDFs na visualização. Agora, os PDFs são um formato aberto, mas isso não significa necessariamente que todos os estejam codificando da mesma maneira. Sua aposta mais segura é obter um editor Adobe PDF e usá-lo. De acordo com essas pessoas, discussões.apple.com / thread /3896311?start=0&tstart =0 , faz a diferença. Eles também discutem o possível motivo por trás do seu problema.
Tony

Respostas:

12

Em seu romance pouco conhecido, PDF Karenina , Leo Tolstoy escreveu:

Os arquivos PDF idealmente codificados são todos iguais; todo arquivo PDF codificado subotimamente é codificado subotimamente à sua maneira.

É difícil alguém responder por que seus arquivos PDF são maiores depois que a Visualização os modifica. Um arquivo PDF consiste em muitos tipos diferentes de dados: imagens, fluxos de conteúdo, fontes, sobrecarga de documentos, espaços de cores, estados de gráficos estendidos e uma tabela de referência cruzada. Assim como uma frase pode ser concisa e outra detalhada, mas ambas são inglesas válidas e dizem a mesma coisa, também um arquivo PDF pode ter uma maneira mais detalhada de representar o mesmo conteúdo que um arquivo PDF mais conciso. Teríamos que examinar seus arquivos PDF exatos. É provável que eles tenham sido criados por uma variedade de softwares diferentes, alguns consistentes, outros nem tanto.

Também importa qual versão do Mac OS X e do Preview você está usando, porque isso determina o software que grava o novo arquivo PDF quando você faz um Save As in Preview.

No entanto, posso dizer o que é maior em alguns dos meus arquivos PDF. Esta história se aplica ao meu computador, executando o Mac OS X 10.5.8 e o Apple Preview 4.2 (469.5).

Um arquivo,, Giulio.pdfé um documento de 22 páginas com texto como texto, não imagens digitalizadas. Possui 461.092 bytes de tamanho. Abri na Visualização, fiz Arquivo ... Salvar como ... e salvei com um novo nome de arquivo. O novo arquivo é 724.421 bytes, ou 57% maior.

Abri cada arquivo com o Adobe Acrobat Professional, versão 8.3.1 para Mac OS. Eu fiz Avançada ... PDF Optimizer ... Uso de Espaço Auditoria ... . Uma pequena caixa de diálogo mostrava quantos bytes eram devidos a cada categoria de uso, além da porcentagem do tamanho total do arquivo da categoria.

O original Giulio.pdfpossui 390.754 bytes (84,75%) dedicados aos fluxos de conteúdo e zero bytes dedicados às imagens. Está no formato PDF 1.4. O arquivo salvo pelo Preview possui 675.846 bytes (93,29%) dedicados aos fluxos de conteúdo, também zero bytes de imagens e está no formato PDF 1.3. A visualização aumentou os fluxos de conteúdo 285.092 bytes e isso representa 73% da diferença de tamanho do arquivo entre os dois.

Gostaria de saber se o formato de arquivo PDF 1.3 era inerentemente menos eficiente para armazenar esse tipo de arquivo. Abri o original Giulio.pdfno Adobe Acrobat Professional 8 e fiz o Advanced ... PDF Optimizer ... Torne-o compatível com: Acrobat 3.0 e posterior e pressionei OK. Salvei o arquivo resultante com um novo nome. O arquivo resultante está no formato PDF 1.3 e tinha 452.356 bytes ou menos que o original. Seus fluxos de conteúdo são 375.171 bytes (82,94%), uma proporção semelhante, mas menor que os fluxos de conteúdo do arquivo original.

Portanto, parece que podemos concluir que o aplicativo Preview no Mac OS X 10.5.8 não é tão eficiente quanto outros criadores de PDF em criar fluxos de conteúdo concisos em arquivos PDF, e a diferença é suficiente para representar três quartos da diferença de tamanho em um arquivo PDF sem imagens.

Fiz um experimento semelhante form k.pdf, um documento de uma página digitalizado em papel. O arquivo original tem 303.730 bytes, dos quais 298.197 bytes (98,18%) são imagens. Uma cópia deste arquivo criado pela Visualização usando Salvar como ... é 300.601 bytes, ou 1% menor. Essa diferença de tamanho de arquivo é mais do que explicada por uma categoria menor de "sobrecarga de documento" de bytes no arquivo criado pela Visualização.

Assim, parece que também podemos concluir que a visualização nem sempre faz com que um arquivo PDF aumente de tamanho. Depende da natureza do arquivo PDF original e de quão conciso era para começar.

Jim DeLaHunt
fonte
3

Sei que é tarde demais, mas encontrei algo que parece funcionar, pelo menos se usado inicialmente: tentei usar o filtro Quartz para "Reduzir o tamanho do arquivo". Parece funcionar, mas não está ativado por padrão. Posso selecioná-lo especificamente no menu Salvar como (mantenha pressionada a opção), mas estou preocupado que o padrão seja o método usual no salvamento automático.

Aqui está o que está acontecendo para mim e como cheguei a esta página em primeiro lugar: O PDF começa como um livro de 91MB com 900 páginas. Eu adiciono uma única anotação e a salvo e o arquivo salta para 2,29 GB. Para finalizar, leva uma eternidade para salvar, principalmente porque estou salvando em uma unidade externa. Graças a Deus a unidade é USB 3!

Existe alguma maneira de extrair essas anotações? Posso anotar e destacar no Goodreader e no PDF Expert no meu iPad. Se a Visualização não puder me permitir fazer isso no meu computador, existe algum outro aplicativo que o fará? Por que ele não pode simplesmente salvar as anotações / destaques, mas não tentar recomprimir todas as fotos como se eu estivesse salvando um JPEG de cada vez. Obrigado pela ajuda!

Scott
fonte
Isso funciona: 400 KiB> 1,3 MiB> 540 KiB. Meu PDF original tinha menos de 400 KiB e se tornou um monstruoso 1,3 MiB depois de adicionar alguns destaques / sublinhados. Fiz o que foi sugerido e o arquivo foi reduzido para 540 KiB: Salvar como ... com o filtro de quartzo definido como Reduzir tamanho do arquivo . Ainda posso editar os destaques anteriores (o que se torna impossível com Exportar como PDF ... ) e o tamanho está mais alinhado com o que recebo editando-o em um dispositivo diferente.
Daniel
1

O problema continua sério. Na Visualização 7.0 (Mac Os 10.9.5.), Gerei um pdf usando o Acrobat 9.5.5. que resultou em um arquivo de 5 MB. Na pré-visualização, adicionei exatamente 12 caracteres (usando as ferramentas de edição). Depois de salvar este arquivo, ele aumentou para 14 MB.

Você pode corrigi-lo abrindo e salvando novamente no Acrobat (pode ser necessário usar a opção "reduzir tamanho do arquivo").

Peter Uetz
fonte
2
Isso não explica por que isso acontece e é o que a pergunta está sendo feita.
Ian C.
0

Não é possível adicionar pistas à solução. Posso adicionar um cenário semelhante (OS X 10.11.3): um PDF digitalizado com ~ 800kb é aberto na visualização, algumas páginas paginadas digitalizadas vazias são excluídas, e o PDF menor, com duas páginas resultante, é ~ 2,2Mb. "Salvar como opção" e selecionar o filtro de quartzo "reduzir tamanho do arquivo" comprime o arquivo para ... 1,9Mb.

O arquivo original foi gerado por uma copiadora Xerox WC 7830, que, em minha experiência (em comparação com as impressoras / copiadoras multifuncionais anteriores que tínhamos), produz PDFs digitalizados bastante otimizados.

Não pode ver nenhuma diferença no arquivo, visualmente; Eu acho que as imagens da página estão sendo recomprimidas em 24 bpp, enquanto o arquivo original está claramente usando muito menos profundidade de cor, provavelmente 6 bits (é um documento impresso e assinado, apenas texto, o scanner faz um bom trabalho em manter a fundo branco branco puro). Infelizmente, a visualização não é inteligente o suficiente para detectar e manter isso, e parece precisar recomprimir o arquivo inteiro, embora nenhuma alteração seja feita nas páginas restantes (novamente, apenas algumas páginas foram excluídas.

Pimenta
fonte