Parece que fazer edições, anotações ou até mesmo abrir e salvar um arquivo PDF na Visualização causará um aumento significativo no tamanho do arquivo. Percebi que, para alguns livros que digitalizei, isso também melhora o tempo de renderização da página.
Alguém pode esclarecer o que está acontecendo para causar essas mudanças? Estou interessado em sincronizar anotações de e-books em PDF entre o Preview e o iPad (talvez o GoodReader), mas isso pode ser impraticável com arquivos PDF grandes.
Respostas:
Em seu romance pouco conhecido, PDF Karenina , Leo Tolstoy escreveu:
É difícil alguém responder por que seus arquivos PDF são maiores depois que a Visualização os modifica. Um arquivo PDF consiste em muitos tipos diferentes de dados: imagens, fluxos de conteúdo, fontes, sobrecarga de documentos, espaços de cores, estados de gráficos estendidos e uma tabela de referência cruzada. Assim como uma frase pode ser concisa e outra detalhada, mas ambas são inglesas válidas e dizem a mesma coisa, também um arquivo PDF pode ter uma maneira mais detalhada de representar o mesmo conteúdo que um arquivo PDF mais conciso. Teríamos que examinar seus arquivos PDF exatos. É provável que eles tenham sido criados por uma variedade de softwares diferentes, alguns consistentes, outros nem tanto.
Também importa qual versão do Mac OS X e do Preview você está usando, porque isso determina o software que grava o novo arquivo PDF quando você faz um Save As in Preview.
No entanto, posso dizer o que é maior em alguns dos meus arquivos PDF. Esta história se aplica ao meu computador, executando o Mac OS X 10.5.8 e o Apple Preview 4.2 (469.5).
Um arquivo,,
Giulio.pdf
é um documento de 22 páginas com texto como texto, não imagens digitalizadas. Possui 461.092 bytes de tamanho. Abri na Visualização, fiz Arquivo ... Salvar como ... e salvei com um novo nome de arquivo. O novo arquivo é 724.421 bytes, ou 57% maior.Abri cada arquivo com o Adobe Acrobat Professional, versão 8.3.1 para Mac OS. Eu fiz Avançada ... PDF Optimizer ... Uso de Espaço Auditoria ... . Uma pequena caixa de diálogo mostrava quantos bytes eram devidos a cada categoria de uso, além da porcentagem do tamanho total do arquivo da categoria.
O original
Giulio.pdf
possui 390.754 bytes (84,75%) dedicados aos fluxos de conteúdo e zero bytes dedicados às imagens. Está no formato PDF 1.4. O arquivo salvo pelo Preview possui 675.846 bytes (93,29%) dedicados aos fluxos de conteúdo, também zero bytes de imagens e está no formato PDF 1.3. A visualização aumentou os fluxos de conteúdo 285.092 bytes e isso representa 73% da diferença de tamanho do arquivo entre os dois.Gostaria de saber se o formato de arquivo PDF 1.3 era inerentemente menos eficiente para armazenar esse tipo de arquivo. Abri o original
Giulio.pdf
no Adobe Acrobat Professional 8 e fiz o Advanced ... PDF Optimizer ... Torne-o compatível com: Acrobat 3.0 e posterior e pressionei OK. Salvei o arquivo resultante com um novo nome. O arquivo resultante está no formato PDF 1.3 e tinha 452.356 bytes ou menos que o original. Seus fluxos de conteúdo são 375.171 bytes (82,94%), uma proporção semelhante, mas menor que os fluxos de conteúdo do arquivo original.Portanto, parece que podemos concluir que o aplicativo Preview no Mac OS X 10.5.8 não é tão eficiente quanto outros criadores de PDF em criar fluxos de conteúdo concisos em arquivos PDF, e a diferença é suficiente para representar três quartos da diferença de tamanho em um arquivo PDF sem imagens.
Fiz um experimento semelhante
form k.pdf
, um documento de uma página digitalizado em papel. O arquivo original tem 303.730 bytes, dos quais 298.197 bytes (98,18%) são imagens. Uma cópia deste arquivo criado pela Visualização usando Salvar como ... é 300.601 bytes, ou 1% menor. Essa diferença de tamanho de arquivo é mais do que explicada por uma categoria menor de "sobrecarga de documento" de bytes no arquivo criado pela Visualização.Assim, parece que também podemos concluir que a visualização nem sempre faz com que um arquivo PDF aumente de tamanho. Depende da natureza do arquivo PDF original e de quão conciso era para começar.
fonte
Sei que é tarde demais, mas encontrei algo que parece funcionar, pelo menos se usado inicialmente: tentei usar o filtro Quartz para "Reduzir o tamanho do arquivo". Parece funcionar, mas não está ativado por padrão. Posso selecioná-lo especificamente no menu Salvar como (mantenha pressionada a opção), mas estou preocupado que o padrão seja o método usual no salvamento automático.
Aqui está o que está acontecendo para mim e como cheguei a esta página em primeiro lugar: O PDF começa como um livro de 91MB com 900 páginas. Eu adiciono uma única anotação e a salvo e o arquivo salta para 2,29 GB. Para finalizar, leva uma eternidade para salvar, principalmente porque estou salvando em uma unidade externa. Graças a Deus a unidade é USB 3!
Existe alguma maneira de extrair essas anotações? Posso anotar e destacar no Goodreader e no PDF Expert no meu iPad. Se a Visualização não puder me permitir fazer isso no meu computador, existe algum outro aplicativo que o fará? Por que ele não pode simplesmente salvar as anotações / destaques, mas não tentar recomprimir todas as fotos como se eu estivesse salvando um JPEG de cada vez. Obrigado pela ajuda!
fonte
O problema continua sério. Na Visualização 7.0 (Mac Os 10.9.5.), Gerei um pdf usando o Acrobat 9.5.5. que resultou em um arquivo de 5 MB. Na pré-visualização, adicionei exatamente 12 caracteres (usando as ferramentas de edição). Depois de salvar este arquivo, ele aumentou para 14 MB.
Você pode corrigi-lo abrindo e salvando novamente no Acrobat (pode ser necessário usar a opção "reduzir tamanho do arquivo").
fonte
Não é possível adicionar pistas à solução. Posso adicionar um cenário semelhante (OS X 10.11.3): um PDF digitalizado com ~ 800kb é aberto na visualização, algumas páginas paginadas digitalizadas vazias são excluídas, e o PDF menor, com duas páginas resultante, é ~ 2,2Mb. "Salvar como opção" e selecionar o filtro de quartzo "reduzir tamanho do arquivo" comprime o arquivo para ... 1,9Mb.
O arquivo original foi gerado por uma copiadora Xerox WC 7830, que, em minha experiência (em comparação com as impressoras / copiadoras multifuncionais anteriores que tínhamos), produz PDFs digitalizados bastante otimizados.
Não pode ver nenhuma diferença no arquivo, visualmente; Eu acho que as imagens da página estão sendo recomprimidas em 24 bpp, enquanto o arquivo original está claramente usando muito menos profundidade de cor, provavelmente 6 bits (é um documento impresso e assinado, apenas texto, o scanner faz um bom trabalho em manter a fundo branco branco puro). Infelizmente, a visualização não é inteligente o suficiente para detectar e manter isso, e parece precisar recomprimir o arquivo inteiro, embora nenhuma alteração seja feita nas páginas restantes (novamente, apenas algumas páginas foram excluídas.
fonte