Quando copio o texto de um arquivo PDF para um editor de texto, ele acaba mutilado de várias maneiras. Formatação como negrito e itálico são perdidas; as quebras de linhas flexíveis em um parágrafo do texto são convertidas em quebras de linhas rígidas; traços para quebrar uma palavra em duas linhas são preservados mesmo quando não deveriam; e aspas simples e duplas são substituídas por? sinais.
Idealmente, eu gostaria de poder copiar texto de um PDF e converter a formatação em códigos HTML, "aspas inteligentes" convertidas em "e" e quebras de linha feitas corretamente. Existe alguma maneira de fazer isso?
Respostas:
Primeiro, você precisa entender o que é um PDF. Os PDFs são projetados para imitar uma página impressa e são projetados apenas como um formato de saída, não como um formato de entrada. um PDF é basicamente um mapa que contém a localização exata de caracteres (letras ou pontuação individuais etc.) ou imagens. Na maioria dos casos , um PDF nem armazena informações sobre onde uma palavra termina e a outra começa, muito menos coisas como pausas suaves vs. pausas duras para terminações de parágrafos.
(Alguns PDFs recentes armazenam algumas informações sobre esse material, mas essa é uma nova tecnologia, e você teria a sorte de encontrar PDFs como esse. Mesmo se o fizesse, seu visualizador de PDF talvez não o saiba.)
De qualquer forma, cabe ao seu software implementar algum tipo de "inteligência artificial" para extrair apenas dos locais dos caracteres individuais o que é uma palavra, o que é um parágrafo e assim por diante. Diferentes softwares farão isso melhor do que outros, e também dependerá de como o PDF foi feito. De qualquer forma, você nunca deve esperar resultados perfeitos. Ter o PDF de saída não é o mesmo que ter o documento de origem. Muito melhor tentar conseguir isso, se puder.
A solução padrão para o seu tipo de problema é usar o Adobe Acrobat Professional (o caro, não o leitor gratuito) para converter o PDF em HTML. Mesmo isso não vai obter resultados perfeitos.
Existe um software gratuito que pode ser usado para extrair texto de PDFs com algumas formatações intactas, mas, novamente, não espere resultados perfeitos. Veja, por exemplo, calibre (que pode ser convertido para o formato RTF), pdftohtml / pdfreflow ou o processador de texto AbiWord (com todos os plugins de importação / exportação ativados). Há também um plug-in de importação de PDF para o OpenOffice.
Mas não espere perfeição com nenhum desses resultados. Você está indo contra a corrente aqui. O PDF simplesmente não é um formato de entrada editável.
fonte
Outra opção é fazer o download e começar a usar o visualizador de PDF gratuito, Foxit (é bom). Então você pode 'Salvar como' e escolher .txt para convertê-lo em um arquivo de texto. Isso preservará toda a formatação. Não sei se você pode fazer o mesmo no Adobe, porque parei de usá-lo há algum tempo quando me converti no Foxit.
fonte
Existe uma ferramenta online muito boa chamada Sej-da . Ele lida com manipulação avançada de PDF. Não há software para baixar. Por ser uma nova ferramenta on-line, ainda está na versão beta. Permite extrair texto de um PDF, além de fornecer uma infinidade de outras funcionalidades em PDF
http://www.sejda.com/
Uma breve revisão em vídeo das funções sejda foi realizada em 14 de novembro de 2012 pela Revisão 3 e pode ser encontrada aqui:
http://revision3.com/tzdaily/sejda-online-pdf
fonte
Abra seu arquivo PDF com um navegador (o Google chrome e o firefox são testados) e copie o texto para lá.
fonte
Você pode usar o Adobe Acrobat Pro para isso.
Para tabelas: no Acrobat 9/10, havia um recurso de seleção de tabelas. Com o Acrobat X, você pode simplesmente clicar em Salvar como> Planilha> Excel. Até concatena páginas em uma planilha longa. Recurso impressionante.
Para texto: Existe um recurso semelhante para exportar para o MS Word. Salvar como> Word> Doc. Do Word
Fontes:
fonte
O Foxit alterna entre exibir o arquivo original como PDF normal ou como texto pressionando Ctrl + 6 (com um pouco de brincadeira com o nível de zoom do modo de texto, não há muito salto na posição entre ler e copiar)
fonte
Achei isso muito útil ( remover quebras de linha ):
Aqui está um truque útil para resolver rapidamente isso sem precisar remover todas as quebras de linha manualmente. Basicamente, tudo o que faz é substituir automaticamente todas as quebras de linha indesejadas por um único espaço, fazendo com que todo o texto seja executado em um único parágrafo:
1- copie o texto que você deseja do PDF.
2- cole em um novo documento do Word.
3- clique em "editar" e depois "substituir"
4- verifique se você está no campo "encontre o que"
5- clique em "mais" e depois em "especial"
6- selecione “marca de parágrafo” (topo da lista)
7- clique no campo "substituir por"
8- pressione a barra de espaço uma vez
9- clique em "substituir tudo"
10- clique em "ok" e feche a caixa "localizar e substituir".
fonte
Você pode copiar do Adobe Reader para o MS Excel e formatar (tabela) da maneira que desejar e, em seguida, copiar e colar do Excel. Esta solução funciona muito bem. Você não precisa comprar uma cópia profissional da Adobe.
fonte
Eu estava tentando salvar o texto e o formato de um pdf organizado em uma tabela. No Acrobat Professional, percebi que existe uma opção "Salvar como" que permite salvar como um documento do Excel. Isso funcionou bem para minhas necessidades. Também notei que há uma opção de documento Salvar como Word. Eu não tentei embora.
fonte