Preciso de arquivos PDF em texto para que eu possa pesquisá-los em massa a partir da linha de comando. Existe algum conversor para Ubuntu, OBSD ou distribuição similar?
calibre 's ebook-convertprograma de linha de comando (ou calibre em si) é outra opção; ele pode converter PDF para texto sem formatação ou outro formato de e-book (RTF, ePub), na minha opinião, gera melhores resultados que o pdftotext, embora seja consideravelmente mais lento.
ebook-convert file.pdf file.txt
O AbiWord pode converter entre todos os formatos que conhece da linha de comando e, pelo menos, opcionalmente, possui um plug-in de importação de PDF:
ebook-convert da calibre ... você viu o que isso faz com as ligaduras? Bleargh. vamos colocar desta maneira: não é um programa muito eficaz. O pdftotext é muito mais fiel. Eu nunca descobri nenhum erro em sua saída.
Ixtmixilix
1
Você pode usar menos para visualizar arquivos PDF como texto. Invoca um pré-processador, ou seja, lesspipe, para invocar o pdftotext ou ferramentas similares.
Daniel Näslund 13/03/12
pdftotextfornece resultados mais precisos do que ebook-converte é muito rápido. ebook-converté lento.
Amit Patel
pdftotextcom -layoutopção de pedras! calibrerequer mais de 600mb para instalar! Isso é loucura)
Stalinko 15/11/2018
9
Você pode converter PDFs em texto na linha de comando com o pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utilspackage).
Você pode usar Recoll
(Ubuntu: recoll ; OpenBSD: sem porta, mas existe um para o FreeBSD .) Para pesquisar dentro de vários tipos de documentos de texto formatados, incluindo PDF. Há uma GUI e ela cria um índice automaticamente sob o capô. Ele usa pdftotextpara converter PDF em texto.
O Acrobat Reader (pelo menos a versão 9 no Linux) possui um recurso limitado de pesquisa de vários arquivos (você pode pesquisar em todos os arquivos em um diretório).
O pdftotext provavelmente é o que você está procurando: http://en.wikipedia.org/wiki/Pdftotext , a menos que o texto que você deseja extrair esteja realmente sob uma forma gráfica, o que não é tão comum nos documentos em PDF.
O gPDFText converte o conteúdo do ebook PDF em texto ASCII, reformatado para parágrafos de linhas longas. Funciona para mim e possui uma interface gráfica.
Olá e bem-vindo ao site! Gostamos de que as respostas sejam um pouco mais abrangentes aqui. Por exemplo, você pode adicionar onde gPDFTextpode ser obtido, como pode ser instalado e como seria usado para responder à pergunta do OP.
pdftotext
=pdfcat
.Respostas:
Você tem muitas opções!
pdftotext
do poppler já foi mencionado.Existe um programa Haskell chamado
pdf2line
que funciona bem.calibre 's
ebook-convert
programa de linha de comando (ou calibre em si) é outra opção; ele pode converter PDF para texto sem formatação ou outro formato de e-book (RTF, ePub), na minha opinião, gera melhores resultados que o pdftotext, embora seja consideravelmente mais lento.ebook-convert file.pdf file.txt
O AbiWord pode converter entre todos os formatos que conhece da linha de comando e, pelo menos, opcionalmente, possui um plug-in de importação de PDF:
abiword --to=txt file.pdf
Outra opção é
podofotextextract
da biblioteca de ferramentas PDF podofo. Eu realmente não tentei isso.Se você combinar as duas ferramentas Ghostscript,
pdf2ps
eps2ascii
ainda terá outra opção.Posso pensar em mais alguns métodos, mas deixarei por enquanto. ;)
fonte
pdftotext
fornece resultados mais precisos do queebook-convert
e é muito rápido.ebook-convert
é lento.pdftotext
com-layout
opção de pedras!calibre
requer mais de 600mb para instalar! Isso é loucura)Você pode converter PDFs em texto na linha de comando com o pdftotext (Ubuntu: poppler-utils ; OpenBSD:
xpdf-utils
package).Você pode usar Recoll (Ubuntu: recoll ; OpenBSD: sem porta, mas existe um para o FreeBSD .) Para pesquisar dentro de vários tipos de documentos de texto formatados, incluindo PDF. Há uma GUI e ela cria um índice automaticamente sob o capô. Ele usa
pdftotext
para converter PDF em texto.O Acrobat Reader (pelo menos a versão 9 no Linux) possui um recurso limitado de pesquisa de vários arquivos (você pode pesquisar em todos os arquivos em um diretório).
fonte
O pdftotext provavelmente é o que você está procurando: http://en.wikipedia.org/wiki/Pdftotext , a menos que o texto que você deseja extrair esteja realmente sob uma forma gráfica, o que não é tão comum nos documentos em PDF.
fonte
O gPDFText converte o conteúdo do ebook PDF em texto ASCII, reformatado para parágrafos de linhas longas. Funciona para mim e possui uma interface gráfica.
fonte
gPDFText
pode ser obtido, como pode ser instalado e como seria usado para responder à pergunta do OP.