Estou usando o pdftotext (parte do poppler-utils) para converter documentos PDF em texto. Funciona, na maior parte, mas uma coisa que eu gostaria que fizesse era inserir linhas em branco entre parágrafos separados, em vez de juntá-las.
Existe maneira de obter pdftotext para fazer isso? E se não, existe outro utilitário de pdf para texto que possa fazer isso?
pdf
conversion
dan
fonte
fonte
PDF to audio software for academic papers?
softwarerecs.stackexchange.com/questions/10640/…Respostas:
Você pode tentar
ebook-convert
do Calibre.Se alguma coisa, eu diria que erra na outra direção: muitas quebras de linha.
Outra coisa que eu definitivamente consideraria é converter para HTML usando pdfreflow e depois converter o HTML para TXT.
fonte
ebook-convert
não pode converter o layout de várias colunas, ele mescla as colunas em uma coluna. Para o layout de várias colunas,pdftotext
produz resultados muito melhores. Outras limitações são descritas em manual.calibre-ebook.com/conversion.html#convert-pdf-documents .Se você estiver usando pdftotext, poderá usar o
-layout
sinalizador para preservar o layout do texto nas páginas do seu arquivo pdf de entrada:fonte
-r
(resolução, padrão 72 dpi)Como fã de código aberto (e automação), detesto dizer isso, mas os melhores resultados que obtive (em um PDF bastante amplo e complexo) foram abri-lo no Adobe Reader e escolher Arquivo | Salvar como texto.
(Estou pré-processando para experimentos de análise de texto, não como leitor, mas acho que minha primeira e segunda opção seriam as mesmas.)
Estive comparando a saída lado a lado. Minha segunda opção é ebook-convert.
Adobe : deixado no FF para quebras de página, deixado nos números de página, não converteu títulos / parágrafos em linhas únicas, mas corrigiu hífens. Lixo que estava oculto no PDF não foi gerado. Conseguiu corretamente as grandes maiúsculas no início das seções, por exemplo, "O", não "O" ou mesmo "O".
ebook-convert : esquerda em números de página e algum lixo oculto no cabeçalho / rodapé (mas sem FFs). Converte a maioria dos parágrafos em linhas únicas. Os que ele perdeu são espaçados duas vezes! Os marcadores nem sempre estão alinhados com o texto. Obteve corretamente "The" no início do capítulo.
pdftotext (sem --layout) : Não é ruim, os marcadores estão alinhados, mas o ruído do cabeçalho / rodapé. FFs estão lá. Hífens removidos. Pior para letras grandes no início do capítulo: "T \ n \ nhe".
pdftotext (com --layout) : Similar, mas com mais indentações. "O" para o início do capítulo.
pdftohtml >> pdfreflow >> htmltotext : removia os números das páginas, mas ainda era indesejável no cabeçalho / rodapé. "O" para o início do capítulo. Hífens removidos. (Ele usa várias linhas por parágrafo, mas elas não são as mesmas quebras de linha que nas outras versões!)
fonte
ebook-convert
funcionou bem.Se você possui uma conta do Google, pode usar o Google Docs para fazer upload do PDF e transformá-lo em texto editável.
fonte
Eu também tentei o pypdf e o comparei com o pdftotext em dois documentos. Tinha mais quebras de linha e dividiu alguns nomes de seção (REFERENCES era REFERENCES).
pdf2txt produziu lixo completo.
Costumo usar pdfBox (java) se pdftotext estragar a saída. Você pode tentar.
fonte