Como copiar texto de um PDF sem perder a formatação?

41

Quando copio o texto de um arquivo PDF para um editor de texto, ele acaba mutilado de várias maneiras. Formatação como negrito e itálico são perdidas; as quebras de linhas flexíveis em um parágrafo do texto são convertidas em quebras de linhas rígidas; traços para quebrar uma palavra em duas linhas são preservados mesmo quando não deveriam; e aspas simples e duplas são substituídas por? sinais.

Idealmente, eu gostaria de poder copiar texto de um PDF e converter a formatação em códigos HTML, "aspas inteligentes" convertidas em "e" e quebras de linha feitas corretamente. Existe alguma maneira de fazer isso?

Colen
fonte
2
O Word 2013 pode abrir PDFs. Imperfeito. Mas factível
pratnala
Pode estar relacionado: superuser.com/a/455278/13787
Steven R. Loomis

Respostas:

54

Primeiro, você precisa entender o que é um PDF. Os PDFs são projetados para imitar uma página impressa e são projetados apenas como um formato de saída, não como um formato de entrada. um PDF é basicamente um mapa que contém a localização exata de caracteres (letras ou pontuação individuais etc.) ou imagens. Na maioria dos casos , um PDF nem armazena informações sobre onde uma palavra termina e a outra começa, muito menos coisas como pausas suaves vs. pausas duras para terminações de parágrafos.

(Alguns PDFs recentes armazenam algumas informações sobre esse material, mas essa é uma nova tecnologia, e você teria a sorte de encontrar PDFs como esse. Mesmo se o fizesse, seu visualizador de PDF talvez não o saiba.)

De qualquer forma, cabe ao seu software implementar algum tipo de "inteligência artificial" para extrair apenas dos locais dos caracteres individuais o que é uma palavra, o que é um parágrafo e assim por diante. Diferentes softwares farão isso melhor do que outros, e também dependerá de como o PDF foi feito. De qualquer forma, você nunca deve esperar resultados perfeitos. Ter o PDF de saída não é o mesmo que ter o documento de origem. Muito melhor tentar conseguir isso, se puder.

A solução padrão para o seu tipo de problema é usar o Adobe Acrobat Professional (o caro, não o leitor gratuito) para converter o PDF em HTML. Mesmo isso não vai obter resultados perfeitos.

Existe um software gratuito que pode ser usado para extrair texto de PDFs com algumas formatações intactas, mas, novamente, não espere resultados perfeitos. Veja, por exemplo, calibre (que pode ser convertido para o formato RTF), pdftohtml / pdfreflow ou o processador de texto AbiWord (com todos os plugins de importação / exportação ativados). Há também um plug-in de importação de PDF para o OpenOffice.

Mas não espere perfeição com nenhum desses resultados. Você está indo contra a corrente aqui. O PDF simplesmente não é um formato de entrada editável.

frabjous
fonte
2
um feedback 5 anos depois: não houve grande melhoria: tive que convertê-lo em HTML (usando o acrobat x) e depois inserir cada linha em uma tabela do MSword. (Salvar para word ou excel ou txt apenas estragou tudo, copiar além do chrome também não funcionou). Ainda estou esperando por um software (muito) inteligente.
JinSnow 6/11/2015
Botão direito do mouse sobre a mesa escolhendo "Copiar com formatação" trabalho também, com os limites mencionados acima
JinSnow
1
Como esta é a resposta aceita, sugiro que você também mencione a opção (mais recente) que a pratnala escreveu em seu comentário - abra o pdf diretamente do Word 2013. Em alguns pdfs, tentei que desse resultados melhores que todos os softwares acima.
BornToCode
8

Outra opção é fazer o download e começar a usar o visualizador de PDF gratuito, Foxit (é bom). Então você pode 'Salvar como' e escolher .txt para convertê-lo em um arquivo de texto. Isso preservará toda a formatação. Não sei se você pode fazer o mesmo no Adobe, porque parei de usá-lo há algum tempo quando me converti no Foxit.

chris
fonte
"Salvar como ... Texto" funcionou para mim com vários visualizadores de PDF gratuitos.
Jeff
Eu uso o Foxit, e apenas tentei, não diria que preservou a formatação. E tudo que eu queria era finais de linha decentes e cada parágrafo como um parágrafo.
pgr 31/12/15
Usando txt você vai perder toda a formatação: fontes, negrito, itálico, cores, e de opções de curso mais avançado
skan
Foxit Reader trabalhou muito para mim
Michael Tranchida
5

Existe uma ferramenta online muito boa chamada Sej-da . Ele lida com manipulação avançada de PDF. Não há software para baixar. Por ser uma nova ferramenta on-line, ainda está na versão beta. Permite extrair texto de um PDF, além de fornecer uma infinidade de outras funcionalidades em PDF

http://www.sejda.com/

Uma breve revisão em vídeo das funções sejda foi realizada em 14 de novembro de 2012 pela Revisão 3 e pode ser encontrada aqui:

http://revision3.com/tzdaily/sejda-online-pdf

Simon
fonte
1
Um poderia ainda baixar a ferramenta de linha de comando: sejda.org/download (Eu não acho que ele permite extrair texto com formatação?)
Arjan
Eu já recomendei Sejda acima de Arjan
Simon
1
Hã? Eu só quis dizer: você está dizendo que é uma ferramenta online, mas também é possível fazer o download da mesma coisa. Além disso, analisando mais a fundo: acho que não preservará a formatação, como foi solicitado?
Arjan
Estou ciente de que a preservação do formato foi solicitada, mas, a menos que você tente, nunca saberá.
Simon
Como é uma ferramenta gratuita com muitos recursos, e nem está fora de beta - não há nada a perder, mas tente. Com o tempo, seu conjunto de recursos provavelmente será estendido, mas por enquanto não posso reclamar.
Simon
5

Abra seu arquivo PDF com um navegador (o Google chrome e o firefox são testados) e copie o texto para lá.

harsini
fonte
Infelizmente isso não funcionou para mim no Firefox.
58516 Reb Reb
Fechar. A FF manteve os tamanhos das fontes pelo menos. O Chrome falhou miseravelmente, nem mesmo os feeds de linha.
Nd34567s32e
A partir de outubro de 2019, a abertura de um PDF no Chrome e a cópia / colagem em um editor de texto preservam pelo menos o final de linha (mas, infelizmente, não há nenhum espaço em branco nas linhas).
DocOc 03/10
4

Você pode usar o Adobe Acrobat Pro para isso.

Para tabelas: no Acrobat 9/10, havia um recurso de seleção de tabelas. Com o Acrobat X, você pode simplesmente clicar em Salvar como> Planilha> Excel. Até concatena páginas em uma planilha longa. Recurso impressionante.

Para texto: Existe um recurso semelhante para exportar para o MS Word. Salvar como> Word> Doc. Do Word

Fontes:

user156787
fonte
0

O Foxit alterna entre exibir o arquivo original como PDF normal ou como texto pressionando Ctrl + 6 (com um pouco de brincadeira com o nível de zoom do modo de texto, não há muito salto na posição entre ler e copiar)

Stoatly
fonte
0

Achei isso muito útil ( remover quebras de linha ):

Aqui está um truque útil para resolver rapidamente isso sem precisar remover todas as quebras de linha manualmente. Basicamente, tudo o que faz é substituir automaticamente todas as quebras de linha indesejadas por um único espaço, fazendo com que todo o texto seja executado em um único parágrafo:

1- copie o texto que você deseja do PDF.

2- cole em um novo documento do Word.

3- clique em "editar" e depois "substituir"

4- verifique se você está no campo "encontre o que"

5- clique em "mais" e depois em "especial"

6- selecione “marca de parágrafo” (topo da lista)

7- clique no campo "substituir por"

8- pressione a barra de espaço uma vez

9- clique em "substituir tudo"

10- clique em "ok" e feche a caixa "localizar e substituir".

clarabóia
fonte
-1

Você pode copiar do Adobe Reader para o MS Excel e formatar (tabela) da maneira que desejar e, em seguida, copiar e colar do Excel. Esta solução funciona muito bem. Você não precisa comprar uma cópia profissional da Adobe.

Murali Sastry
fonte
A pergunta discute o texto. Você acha que essa seria uma boa solução geral para texto, incluindo a conversão de formatação em códigos HTML?
fixer1234
-1

Eu estava tentando salvar o texto e o formato de um pdf organizado em uma tabela. No Acrobat Professional, percebi que existe uma opção "Salvar como" que permite salvar como um documento do Excel. Isso funcionou bem para minhas necessidades. Também notei que há uma opção de documento Salvar como Word. Eu não tentei embora.

Douglas Thompson
fonte
2
Isso duplica a resposta do usuário156787.
fixer1234