No Linux - Como extrair texto de um .pdf
texto em que realmente é texto, não uma imagem digitalizada? Eu quero algo que eu possa usar na linha de comando / em um script, não de maneira interativa. (Não desejo converter .tif
e usar o OCR - o texto já está disponível no .pdf
arquivo. Por que introduzir imprecisões no OCR imperfeito?)
23
Respostas:
pdftotext
que acompanha o poppler tentará extrair qualquer texto encontrado no PDF.fonte
A resposta de Ignacio está ótima. Na verdade, seria a primeira coisa na minha lista. Bem, isso e talvez sugerir a
pdftohtml
ferramenta que também vem com o poppler, combinada com o pdfreflow, se você quiser remontar o texto em parágrafos, etc. de várias maneiras.)Aqui estão algumas outras opções também.
A
ebook-convert
ferramenta de linha de comando do Caliber , que pode converter .PDFs em texto sem formatação (ou RTF ou em vários formatos de e-books, como ePub, etc.)pdftxtextract
de PodofoO Abiword pode ser chamado a partir da linha de comando para converter entre quaisquer formatos que ele possa inserir de / exportar para e, com o plug-in de importação apropriado, isso inclui PDFs:
abiword --to=txt file.pdf
(Para ser justo, acho que o AbiWord e o calibre usam as bibliotecas poppler, mas não sou positivo.)
fonte