Desejo converter um documento DJVU em um documento PDF, separando e preservando a camada de texto e as imagens , mantendo a estrutura da DJVU. Como posso fazer isso no Ubuntu?
(Eu usarei o Caliber para converter para ePub / Mobi, portanto, se houvesse um plug-in Caliber para todo esse processo, seria perfeito para mim!)
Nota1: Imprimir no Evince, exportar do DJview ou qualquer outra coisa usando o pacote ddjvu , não são soluções adequadas, pois descartam a camada de texto, salvando apenas imagens.
Nota2 : O uso do DJVULibre parece extrair apenas a camada de texto e as imagens não são extraídas . Da mesma forma, copiar o texto "manualmente" perde a estrutura do documento e as figuras.
Aqui está uma maneira, que exigiria algumas ferramentas não tão comuns:
Podemos usar o
djvu2hocr
comando (doocrodjvu
pacote) para extrair a camada de texto oculta do arquivo DjVu (não faz OCR ou similar, apenas extrai a camada de texto com geometria), ou seja:djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html
sed
intervenção corrige nomes de classe na saída hOCR (que é apenas um arquivo HTML simples)Agora extraímos a página do DjVu para o formato TIFF com:
ddjvu -format=tiff -page=10 sample.djvu pg10.tif
para que terminemos com estes arquivos na pasta de trabalho:
É aqui que
pdfbeads
entra o jogo, e nós simplesmente executamos:pdfbeads -o pg10.pdf
esse programa bacana cuida de tudo o que está dentro dessa pasta (arquivos HTML e TIFF com o mesmo nome de base) e produz um arquivo PDF de saída com alguns subprodutos:
que é idêntico ao arquivo DjVu de entrada e possui uma camada de texto dentro:
Resumo dos comentários:
Os longos comentários abaixo discutem a representação de imagens menores da página de documento do DjVu como objetos separados, o que não é possível com facilidade porque a página de documento do DjVu é apenas uma imagem com camada de texto opcional, sem "informações" sobre imagens menores como objetos separados. Se o documento DjVu tiver imagens coloridas, elas geralmente serão colocadas na camada de fundo; nesse caso, o usuário pode tirar proveito de ferramentas como
ddjvu
(extrair apenas a camada de fundo) eimagemagick
(cortar automaticamente) para gerar apenas imagens em vez de tela inteira, mas não pode ser automatizado para criar saída em PDFOutra abordagem mais saudável, porém mais lenta, é o uso de ferramentas regulares da GUI do OCR.
gscan2pdf
(> 1.0) é sugerido como possível candidato para Linux PCfonte
Existe o djvu2pdf, mas ele depende do ghostscript, portanto pode ser outra opção de impressão. Eu ainda sugiro que você dê uma olhada, caso seja mais inteligente do que eu estou dando crédito.
Não está nos repositórios, mas você pode fazer o download de uma deb no site dos fabricantes: http://0x2a.at/s/projects/djvu2pdf
** Insira aqui um aviso obrigatório sobre o download / instalação de itens externos aos repositórios **
fonte
Usando o DJVULibre , é possível extrair a camada de texto através do
terminal
comando:djvutxt myfile.djvu > myfile-ocr.txt
oudjvused myfile.djvu -e 'print-pure-txt' > myfile.txt
(ambos fazem a mesma coisa e foram encontrados aqui )
A formatação requer algum esforço (já que muitos símbolos não são convertidos corretamente) e as imagens não são recuperadas .
fonte
http://www.djvu-pdf.com/ - Usando este site, você pode converter djvu para pdf.
fonte
A maneira mais fácil: use o gscan2pdf para importar o djvu, depois faça o OCR com o tesseract e, finalmente, salve-o como um pdf. O texto do OCR no pdf pode ser um pouco diferente do djvu original, e a conversão pode demorar um pouco, mas esse método é fácil e funciona.
fonte
Eu fiz um roteiro da resposta de @ zetah.
Está disponível aqui: https://gist.github.com/matthieuheitz/7287e214b1aeda7948f6c27fbfb5288b
fonte