Eu tenho um mecanismo de processamento automático de PDF. Tenho experiência em uma variedade de ferramentas como PDF-TK, Ghostscript, PyPDF e PDFMiner, mas esse problema está me atrapalhando.
Eu uso o Ghostscript para otimizar arquivos PDF. Isso funciona até agora sem problemas, ele pega os arquivos de imagem no PDF e reduz a resolução e o tamanho dos arquivos é menor.
Meu problema: agora eu tenho que processar PDF extremamente pesado de vetor com gradientes que, embora otimizados, estão com clock de 15 a 20 MB, o que não é aceitável na minha situação. Além disso, eles precisam de muito poder de processamento para renderizar no Acrobat e fazê-lo lentamente.
Você tem alguma sugestão de como combater isso? Eu estava pensando em contar outras formas além do texto (mas como eu não sei). Com base nessas informações, eu poderia varrer o PDF inteiro ou, melhor ainda, varrer tudo, menos o texto.
Qualquer ajuda muito apreciada!
fonte