Como converter pdf para o formato eBook

8

Existe uma maneira de converter um documento PDF em um formato de e-book como epub, azw ou mobi? Estou procurando um aplicativo que seja rápido na conversão. Acabei de experimentar o calibre. Após 10 minutos, nem 2% da conversão foram atingidos. Então, por favor, não calibre. A CLI é preferida.

ManuelSchneid3r
fonte

Respostas:

6

Você deve tentar pdftotext(vem com o Ubuntu no pacote poppler-utils). É um conversor de linha de comando. Parte do pressuposto de que o PDF possui texto e não consiste apenas em imagens.

Se o arquivo PDF consistir em imagens (sem informações do OCR), você precisará buscar uma solução de OCR, que é muito mais lenta.

Também usei com êxito o método OCR em texto PDF embaralhado (posicionando os caracteres individuais em uma página de maneira não linear). Em seguida, use, por exemplo, pdftoppmpara obter imagens individuais das páginas e registrá-las.

Anthon
fonte
6

Geralmente uso o Caliber , para converter de vários formatos (epub, mobi e pdf). É muito simples de converter, aqui está uma captura de tela, existem outras e um tutorial em vídeo também.

captura de tela

   ss de calibre

slm
fonte
3
Que parte de "por favor, sem calibre" não é clara?
MLP
5
Ao responder perguntas em qualquer site do SE, você está atendendo ao OP e a qualquer pessoa que encontrar esse tópico de perguntas e respostas no futuro. Esta resposta destina-se a cobrir todas as bases para esses indivíduos. Além disso, o Calibre pode ser a melhor opção, talvez o OP tenha uma versão com buggy OU tenha sido mal configurado. Eu usei dezenas de vezes e faz um bom trabalho de conversão.
Slm
Não consigo converter o arquivo pfd para epub em um layout fixo. Você poderia me dizer quais são as etapas a serem seguidas para converter um pdf para epub em um layout fixo.
rathour mohan
1

Eu tive que fazer isso para um arquivo PDF uma vez, e este foi o resultado (usando pdftohtml do poppler):

#!/bin/bash

pwddir="`pwd`"
tmpdir="`mktemp -d`"

pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index

cd "$tmpdir"

sed -e :a -e '$!N;s/\n/ /;ta' \
    -i index.html 

sed -e 's@ @ @g' \
    -e 's@<hr>@ @g' \
    -e 's@<br/>\s*<br/>@</p><p>@g' \
    -e 's@<br/>@ @g' \
    -i index.html

tidy -utf8 -i -wrap 9999999 -m index.html

sed -e 's@<a name="[^"]*"></a>@@g' \
    -i index.html

rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *

Alimente o zip ao Calibre e converta para EPUB. Filtre todas as propriedades CSS (como cores, fontes).

Cada arquivo PDF é diferente - não há solução definitiva. O exemplo acima funcionou para um caso específico - você precisa enfiar pdftohtml / pdftotext e ajustar a saída para atender às suas necessidades.

Se isso falhar e você precisar recorrer ao OCR, tive alguma sorte com o cuneiforme. Mas também tente tesseract, ocrad, gocr. No entanto, todos eles exigem trabalho manual para um bom resultado.

frostschutz
fonte