Exportar: copiar texto de pdf sem quebras de linha

12

Existem alguns PDFs em estado selvagem, onde todas as linhas de texto parecem estar codificadas; portanto, quando eu copio um bloco de texto, tudo vem com ele: quebras de linha e até separadores "-".

Minhas perguntas são: Como criar PDFs no InDesign, onde esse comportamento não ocorre.

Alguém sabe mais sobre isso?

KSPR
fonte
2
Gostaria apenas de comentar que esse é um problema enorme em muitos artigos acadêmicos e não encontrei nenhuma razão / solução para esse problema. Esperando boas respostas!
benteh
... portanto, pode haver alguma funcionalidade de exportação antiga em alguma prática idiota da era pré-cambriana que é a culpa.
benteh

Respostas:

3

Isso ocorre porque os PDFs podem ser gerados de várias maneiras a partir de vários softwares e aplicativos online. Cada uma delas trata as linhas de texto de maneira diferente, para que você nunca possa dizer como o texto está realmente fechado até tentar copiar e colar do PDF novamente para o InDesign.

No entanto, os PDFs exportados pelo InDesign geralmente mantêm os espaços no final de cada linha, para que você não precise se preocupar com a inserção de um retorno de parágrafo após cada linha. Para ter 100% de certeza, marque a Create Tagged PDFcaixa de seleção ao exportar um PDF do InDesign. Pessoalmente, sempre irei marcar esta caixa e incluí-la em todas as predefinições que estou usando. Mais detalhes sobre esta opção aqui .

Se você encontrar um PDF mal exportado e precisar limpar os retornos de parágrafos finais após cada linha de texto, a opção mais rápida será Localizar / Substituir. Digite ^po Find whatcampo e coloque um espaço em branco no Change tocampo. Selecione um Storyou Selectionabaixo, dependendo da sua situação, e isso deve limpar seu texto.

caixa de diálogo localizar alteração

Lucian
fonte
2

Uma maneira de funcionar é exportar o PDF como HTML do Acrobat Pro , abrir esse arquivo no navegador da web e copiar o texto a partir daí.

Ao contrário da exportação como formato de texto, o html geralmente não quebra linhas.

Que eu saiba, você não pode impedir isso do InDesign, parece ser um comportamento que vem do software PDF ou PDF. É possível que qualquer software de publicação que use "quadros / caixas de texto" crie esse tipo de texto em um PDF.

go-junta
fonte
-2

É porque é assim que os pdfs reconhecem o texto - toda linha se torna de fato um parágrafo (portanto, retorna no final dela). Não há como contornar, você deve alterá-lo globalmente em documentos, após copiar, usando a opção Localizar / Substituir e caracteres ocultos.

Agnieszka Szuba
fonte
1
Mas existem pdfs que não têm esse comportamento. PDF's onde você pode copiar a coisa toda sem qualquer aborrecimento. Eu me pergunto como isso poderia ser alcançado durante a exportação.
KSPR