Existe algum tipo de PDF para conversor de texto?

21

Preciso de arquivos PDF em texto para que eu possa pesquisá-los em massa a partir da linha de comando. Existe algum conversor para Ubuntu, OBSD ou distribuição similar?

Talvez post relacionado, OCR com o ubuntu aqui .

otto
fonte
3
Pergunta semelhante no Superusuário
Gilles 'SO- stop be evil'
Se for um PDF "real" (feito de texto, etc.), o pdftotext é a sua melhor aposta. Se for uma imagem, sua melhor aposta é algumas coisas de OCR.
vonbrand
1
Eu sempre uso pdftotext= pdfcat.
Isomorphismes

Respostas:

22

Você tem muitas opções!

pdftotextdo poppler já foi mencionado.

Existe um programa Haskell chamadopdf2line que funciona bem.

calibre 's ebook-convertprograma de linha de comando (ou calibre em si) é outra opção; ele pode converter PDF para texto sem formatação ou outro formato de e-book (RTF, ePub), na minha opinião, gera melhores resultados que o pdftotext, embora seja consideravelmente mais lento.

ebook-convert file.pdf file.txt

O AbiWord pode converter entre todos os formatos que conhece da linha de comando e, pelo menos, opcionalmente, possui um plug-in de importação de PDF:

abiword --to=txt file.pdf

Outra opção é podofotextextractda biblioteca de ferramentas PDF podofo. Eu realmente não tentei isso.

Se você combinar as duas ferramentas Ghostscript, pdf2pse ps2asciiainda terá outra opção.

Posso pensar em mais alguns métodos, mas deixarei por enquanto. ;)

frabjous
fonte
ebook-convert da calibre ... você viu o que isso faz com as ligaduras? Bleargh. vamos colocar desta maneira: não é um programa muito eficaz. O pdftotext é muito mais fiel. Eu nunca descobri nenhum erro em sua saída.
Ixtmixilix
1
Você pode usar menos para visualizar arquivos PDF como texto. Invoca um pré-processador, ou seja, lesspipe, para invocar o pdftotext ou ferramentas similares.
Daniel Näslund 13/03/12
pdftotextfornece resultados mais precisos do que ebook-converte é muito rápido. ebook-converté lento.
Amit Patel
pdftotextcom -layoutopção de pedras! calibrerequer mais de 600mb para instalar! Isso é loucura)
Stalinko 15/11/2018
9

Você pode converter PDFs em texto na linha de comando com o pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utilspackage).

Você pode usar Recoll (Ubuntu: recoll ; OpenBSD: sem porta, mas existe um para o FreeBSD .) Para pesquisar dentro de vários tipos de documentos de texto formatados, incluindo PDF. Há uma GUI e ela cria um índice automaticamente sob o capô. Ele usa pdftotextpara converter PDF em texto.

O Acrobat Reader (pelo menos a versão 9 no Linux) possui um recurso limitado de pesquisa de vários arquivos (você pode pesquisar em todos os arquivos em um diretório).

Gilles 'SO- parar de ser mau'
fonte
-1

O gPDFText converte o conteúdo do ebook PDF em texto ASCII, reformatado para parágrafos de linhas longas. Funciona para mim e possui uma interface gráfica.

Charles
fonte
3
Olá e bem-vindo ao site! Gostamos de que as respostas sejam um pouco mais abrangentes aqui. Por exemplo, você pode adicionar onde gPDFTextpode ser obtido, como pode ser instalado e como seria usado para responder à pergunta do OP.
terdon