Conversor de PDF para texto [fechado]

9

Estou procurando uma maneira "de um clique" de pegar QUALQUER PDF e convertê-lo em texto simples. Idealmente em OSX ou Linux.

Idealmente, a solução incluiria a funcionalidade OCR, mas não necessariamente.

A principal prioridade é ter algo que possa levar QUALQUER arquivo SEM configuração.

o espelho
fonte

Respostas:

23

Existe o xpdf que inclui o pdftotextbinário.

O Pdftotext converte arquivos Portable Document Format (PDF) em texto sem formatação.

No Linux, há um instalador disponível. Parece que ele também vem no poppler-utilspacote. No OS X, você pode instalá-lo usando o Homebrew (instale primeiro) e depois use

brew install homebrew/x11/xpdf

que fará o download dos arquivos de origem e o compilará no OS X. Depois disso, use-o como:

pdftotext your_pdf_file.pdf

o que irá gerar um arquivo de texto sem formatação. Existem algumas opções também, confira man pdftotextpara mais detalhes.

Uma alternativa é poppler , no OSX:

brew install poppler

no Debian e amigos

apt-get install poppler-utils
slhck
fonte
a partir de hoje o comando ébrew install homebrew/x11/xpdf
Diego Vieira
1
@DiegoVieira Thanks. Da próxima vez, sinta-se à vontade para sugerir uma edição!
slhck
alguma vantagem usando poppler em vez de xpdf / pdftotext?
Gonzalo Bahamondez 23/06
brew install Caskroom/cask/pdftotext
Hugo
0

Uma boa ferramenta para Windows é o A-PDF Text Extractor

Michael S.
fonte