O PDF possui um texto ilegível ao copiar e colar

23

Estou tentando copiar e colar texto de um arquivo PDF.

No entanto, sempre que colo o texto original, há uma enorme confusão de caracteres ilegíveis. O texto se parece com o seguinte (este é apenas um pequeno extrato):

4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03! 
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$! 
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40! 
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'! 
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40! 
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(! 
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97! 
)*+*+, C<88,?>8513AG<5A14, 

Eu tentei nos leitores de PDF da Adobe e da Foxit. Fiz um 'Salvar como texto' no Adobe Reader e o arquivo de texto resultante é o mesmo texto ilegível.

Alguma idéia de como posso obter este texto sem distorções? (Além da digitação manual ... há muito texto para extrair.)

ngm
fonte
Experimente alguns utilitários de leitura de tela (que funcionam com jpeg, faça uma tela de impressão e pronto) ou aqui está uma maneira diferente . (Apenas um 'palpite', não me morda por isso. Eu usei o primeiro caminho naquela época. Espero que haja maneiras mais convenientes).
Apache
Pergunta semelhante: superuser.com/questions/119393/…
Hugh Allen #
Também posso confirmar esse problema com o OS X, pelo menos a partir de 10.8.2. Passei um pouco de tempo analisando a estrutura do arquivo PDF, mas infelizmente não vejo nenhuma maneira de reparar o dano. O "PreFlight" do Acrobat Pro relata problemas com o arquivo ao compará-lo com o padrão PDF / A, e o relatório Inventário mostra os glifos sendo mapeados com caracteres Unicode claramente errados. Eu levantei um relatório de bug com a Apple - ID 12655651. Vou relatar aqui se / quando eu receber alguma atualização.
Kend
Deve ser útil superuser.com/a/481510/153937
Ankit

Respostas:

11

A maneira mais simples de contornar isso é abrir o arquivo em uma versão recente do Google Chrome com o plug-in de leitura de PDF incorporado . Em seguida, você pode usar o recurso de pesquisa do Chrome para encontrar texto e copiar e colar funciona corretamente.

Gostaria de votar no comentário do pipitas na resposta do Shiki, mas não tenho os argumentos :( O problema pode ser codificação de fonte personalizada, não criptografia . No Acrobat, clique em Arquivo -> Propriedades e clique na guia Fontes para ver a codificação e a guia Segurança para ver se está criptografada.

acatalept
fonte
De fato, a codificação de fonte personalizada foi a culpada para mim. No entanto, o Chrome não era a solução. Resolvi o problema parcialmente com o Ghostscript regenerando um PDF do PS (tive a sorte de ter a fonte do PS). Quaisquer grupos de caracteres aos quais o LaTeX aplique ligaduras (por exemplo, ff, c, fi, etc.) não aparecem no texto copiado do PDF, o que requer alguma edição quando você copia / cola.
Fuhrmanator
1
Mesmo problema com o chrome
JinSnow
4

Descobri esse problema com os PDFs criados e acredito que localizei a origem do problema: usando a Visualização do Mac OS X para reduzir o tamanho do arquivo PDF.

Eu criei alguns filtros de quartzo usando o Colorsync Utility para compactar imagens em PDFs para reduzir o tamanho geral do arquivo de PDFs com imagens. Como descrito aqui: http://www.macosxhints.com/article.php?story=20031106133852693

Descobri que sou capaz de copiar e colar facilmente texto do arquivo PDF original (não compactado), mas depois de executá-lo por meio de um filtro Reduzir tamanho do arquivo que criei, o PDF compactado resultante não copia e cola claramente (sai parecendo as strings que você postou).

No entanto, executando o mesmo PDF original através da função Documento> Reduzir tamanho do arquivo do Adobe Acrobat Pro, o PDF compactado resultante pode copiar e colar texto com êxito.

Portanto, isso não é totalmente útil no seu caso, presumindo que seu arquivo PDF tenha sido recebido de outro lugar e que você não possa acessar a versão original, se ele foi realmente compactado de alguma forma. Mas essa pode ser a explicação - que o arquivo foi destruído de alguma forma, em um esforço para reduzir o tamanho do arquivo.

Isso pode ser útil para criadores de conteúdo com problemas semelhantes ao copiar e colar texto de PDFs - tenha cuidado ao usar os filtros do OS X Quartz para reduzir seus PDFs!

--edit-- Eu também notei esse problema ao combinar PDFs com a Visualização. Os dois PDFs de origem podem ser copiados e colados corretamente, mas ao arrastar uma página de um arquivo para outro arquivo e salvar o PDF combinado, o texto no documento combinado não pode ser copiado / colado. Estes são dois documentos gerados ao mesmo tempo com o Filemaker Pro 11 no Mac - não consigo imaginar que eles teriam codificações diferentes ou algo assim.

Daniel
fonte
Eu tenho alguns arquivos pdf de um usuário do Mac OS. A seleção é boa, mas copiar e colar seria apenas um lixo. Experimente vários conversores de pdf para palavra, incluindo googledoc, adobe save como texto, todos eles com texto ilegível.
tigr
Suspeito que o encolhimento do PDF do OS X seja o culpado. Alguém aí está ciente de algum meio de "desfazer" essa operação? Obrigado!
tigr
Imprimi o arquivo pdf em várias impressoras (virtuais) e recebi arquivos PDF de tamanho 4x inflados. O arquivo impresso é aparente como imagem, nenhuma seleção de texto pode ser feita, enquanto o original pode ser selecionado (embora ilegível).
tigr 9/08
4

Existe outra maneira muito fácil de fazer uma solução alternativa :)

Basta imprimir o documento usando a impressora CutePdf, Adobe 2 Pdf ou qualquer coisa semelhante. A linha inferior é que você precisa imprimir no formato pdf.

Em muitos casos, ele removerá facilmente o problema.

Nick Olszanski
fonte
2

Solução que funcionou para mim:

  • Faça o upload do documento para o Google Drive / Docs
  • O Google importará (a partir de 2013) como um PDF
  • Abra a visualização PDF e escolha Arquivo > Abrir com > Google Docs
  • Levará cerca de um minuto para exportar o documento

Os resultados não foram perfeitos, mas chegaram a 80% do caminho e me forneceram texto suficiente para não precisar reescrever tudo!

Gavin Miller
fonte
2

RESOLVIDO: (funcionou para mim no Windows 8, Acrobat XI, Office 2010)

Opção 1:

  1. Imprimir no Acrobat usando "Microsoft XPS Document Writer" A saída é: "your file name.oxps"
  2. Abra "... oxps" com o XPS Viewer. * (veja o link para download nos comentários abaixo)
  3. Imprima em PDF (Acrobat PDF ou CutePDF), usando a resolução mais alta (600 DPI).
  4. Abra com o Acrobat e use a opção OCR (Imagem pesquisável (exata)).

BINGO!

Comentários:

  • Usar a resolução mais alta e a Imagem pesquisável (exata) salvará o texto sem perder a aparência limpa. A baixa resolução tornará o seu texto legível, mas com aparência de baixa qualidade.
  • Faça o download do Microsoft XPS (arquivos): http://www.microsoft.com/en-us/download/details.aspx?id=11816
  • Se você não sabe o que é OCR, ou onde encontrar a Imagem pesquisável (exata) ou Como imprimir usando o "Microsoft XPS Document Writer", POR FAVOR, pesquise no Google por conta própria, para obter suas melhores experiências.

* Faça o download apenas se você não tiver o XPS instalado.

Opção 2:

Faça o mesmo, mas salve como imagem (png, tiff, ...), então você terá que combinar todas as páginas novamente em um arquivo "PDF".

user210118
fonte
1
As etapas 1,2 e 3 parecem um longo caminho, quando você pode pular para a etapa 3 Imprimir em PDF. (Por exemplo, de dentro do seu leitor de PDF). Não há necessidade de desvio via XPS.
Hennes 25/03
@Hennes de efectuar o passo 4 produz o erroAcrobat could not perform OCR on this page because: This page contains renderable text
Fuhrmanator
'texto renderizável' soa como algo que ainda precisa ser desenhado (renderizado). Possível já feito e armazenado como um bitmap compatível com OCR, se você for via XPS. Mas isso é apenas um palpite.
Hennes 28/01
1

Existe o risco de que as informações não sejam recuperáveis. Os documentos PDF são essencialmente um documento sobreposto a outro, um texto simples e o outro uma imagem. Ao copiar e colar do documento, você marca o texto enquanto observa a imagem, mas o que é copiado para a área de transferência é a parte correspondente da parte do texto.

Dependendo da maneira como o documento é criado, a qualidade e a disponibilidade da parte do texto podem diferir bastante. Se você salvar um documento do processador de texto no formato PDF, usando o Acrobat, Word, um driver de impressora PDF ou qualquer outro método, a qualidade normalmente será excelente, pois o arquivo de texto pode ser criado a partir do texto do original. Alguns caracteres especiais podem ficar distorcidos, mas o texto sem formatação geralmente é bom.

Se o documento for criado a partir de uma imagem digitalizada, no entanto, a parte do texto é normalmente criada pelo processamento de OCR da imagem, o que pode produzir resultados bastante ruins, especialmente se o original for abaixo do ideal para o objetivo.

Um programa ruim usado para criar o PDF, ou as configurações incorretas, também pode fazer com que a parte do texto fique completamente distorcida, como poderia, de forma perceptível, que alguns tipos de criptografia sejam executados no arquivo após a criação.

A conclusão é que, se a parte do texto do documento estiver realmente ruim, não há como torná-lo melhor. Sua melhor aposta seria remover completamente a parte do texto e fazer com que o programa refizesse o processo de OCR. Acho que isso pode ser possível no Acrobat, mas não tenho certeza.

Emil
fonte
1

Um possível motivo para isso pode ser o fato de a incorporação de fontes no PDF estar usando uma codificação personalizada, que não é aplicada corretamente ao copiar texto do PDF.

Você pode aplicar métodos diferentes para evitar digitar manualmente todo o conteúdo.

  1. Você tentou extrair o texto com uma das ferramentas 'pdftotext.exe' que pode ser baixada em toda a rede? (Eu recomendo o incluído em ftp://ftp.foolabs.com/pub/xpdf/xpdf-3.02pl4-win32.zip ).
  2. A versão mais recente do Acrobat Reader possui a opção "Salvar como texto ..." . Isso não usa "copiar e colar" (que forneceu o texto ilegível), mas provavelmente usa as mesmas rotinas de software usadas para renderizar o texto na tela e, portanto, pode produzir resultados mais utilizáveis.
  3. Se '2.' não funciona e se você tiver acesso ao Acrobat Professional: tente re-destilar o PDF usando um dos perfis do Distiller que incorporam fontes.
  4. Se '3.' não funciona, apesar de você ter acesso ao Acrobat Professional: tente re-destilar o PDF, mas desta vez você deve usar a opção 'imprimir como imagem' (disponível no botão 'Avançado' no canto inferior esquerdo da impressão principal diálogo). Certifique-se de usar 600 dpi (embora isso possa produzir um arquivo enorme). O PDF resultante é aberto novamente no Acrobat Pro. Agora aplique o algoritmo 'OCR' do Acrobat ao arquivo, o que resultará em texto incorporado (não usado para renderização na tela no Reader, mas usado para pesquisar e destacar seqüências). Agora você pode tentar novamente extrair o texto deste PDF, usando um dos métodos discutidos acima.
Kurt Pfeifle
fonte
Para mim, usar o Acrobat Pro XI para reimprimir em PDF - mas com "Imprimir como imagem" marcado (a 600 dpi) no botão / sub-caixa de diálogo Avançado ... da caixa de diálogo Imprimir ... - foi o truque. Então você pode finalmente registrar o resultado corretamente . Nenhuma das outras soluções mencionadas nesta página funcionou. Nota: para um documento grande, isso pode demorar um pouco e o PDF resultante pode ser bastante grande.
Glenn Slayden
@ GlennSlayden: Que bom que meu conselho funcionou para você ... O que faltava nele e que você achava que ainda não merecia um voto positivo?
Kurt Pfeifle
Hum, eu votei. Ainda está aparecendo para mim como '1'. A minha única reclamação foi que a sua resposta estava no fundo e ele me levou um tempo para encontrá-lo (não é sua culpa ...)
Glenn Slayden
Ok, @GlennSlayden, esse voto positivo deve ter sido há muito tempo (muito antes do seu comentário acima).
Kurt Pfeifle #
Não, votei com "12 horas atrás" ao mesmo tempo em que escrevi o comentário ... Ainda vejo uma seta azul que (acredito) significa que meu voto é (aquele) que está registrado atualmente. E eu me lembro que foi '0' antes de votar na noite passada.
Glenn Slayden
1

Um dos meus usuários relatou o mesmo problema (o PDF foi criado com o Distiller para Windows), que o texto copiado é apenas texto ilegível e ele não pôde pesquisar dentro de um documento. Eu tentei no meu Mac e não encontrei nenhum problema. Acabou que eu usei o aplicativo Preview da Apple, enquanto ele usava o Adobe Reader em sua máquina Windows. Então tentei o Adobe Reader no meu Mac e enfrentei o mesmo efeito. Para mim, parece:

  • O Adobe Reader está tentando e pesquisando no texto salvo.

  • O Preview da Apple copia e pesquisa após a aplicação do vetor de codificação.

Não posso dizer isso com certeza, mas isso explicaria minha observação. E de fato permitiria criar todos os tipos de codificação ao salvar arquivos combinados / reduzidos, conforme descrito em outro post aqui: com o Preview, você ainda pode obter o texto novamente.

Primeiro, pensei que seria mais lógico codificar o subconjunto de fontes incorporado como entradas contíguas, em vez de deixar buracos dentro e usar o local do caractere original. Mas então eu percebi que, usando um vetor de codificação para o subconjunto de fontes com entradas originais, os caracteres frequentemente usados ​​podem ter menos bits definidos como 1 em seu byte e podem ser compactados de uma maneira melhor (isso pode diminuir a entropia do texto geral dessa maneira).

Reuti
fonte
1

Carregá-lo nos documentos do Google e usar a opção Exibir> HTML simples fornece um texto copiável de texto correto para cerca de 80%, com alguns espaços faltando.

Este tópico com resposta aceita para o mesmo problema explica isso com um exemplo de trabalho.

Teqchiqe
fonte
1

Eu não tentei a opção Google Docs, pois ela ainda não é suportada no meu escritório. No entanto, imprimindo o arquivo em "ScanSoft PDF Create!" do "Acrobat 9" (imprime o arquivo inteiro na imagem) e, ao abrir o arquivo no "Nuance PDF Converter" (ele me perguntou se eu queria tornar o arquivo de imagem pesquisável e editável, com o qual optei), consegui tem um documento do Word no qual posso copiar e colar facilmente. Não é perfeito, porém, com apenas cerca de 80-90% de precisão. Mas, ei, você ainda tem o arquivo PDF original para comparar e compensar as partes que simplesmente não podem ser corrigidas. Economiza tempo ao digitar tudo. Meu 2c.

Jhonrie
fonte
0

Criei alguns PDFs de texto editável com uma versão antiga do Scansoft PDF Converter para Windows XP e, em seguida, combinei as páginas no programa Preview do Mac. Para cada uma das páginas separadas, eu poderia pesquisar, copiar e exportar texto corretamente do Adobe Reader no Mac. Quando combinados pelo Preview e salvos como um arquivo, todos pareciam bem na tela, mas apenas algumas passagens eram pesquisáveis ​​/ exportáveis ​​corretamente. Esse problema me trouxe aqui.

As postagens aqui me deram algumas boas dicas (obrigado!). Eu olhei as propriedades do arquivo para fontes. Os arquivos de página única do Win XP (onde tudo está bem) disseram que a codificação era ANSI. O arquivo combinado na Visualização (onde o texto copiado é ilegível) mostrou a codificação para a maioria das fontes como "Interna" e algumas como "Romana".

A solução para o meu problema estava embaixo do meu nariz o tempo todo - o próprio programa Scansoft pode combinar arquivos. Quando usei o combinador da Scansoft e abri o arquivo no Mac, todas as fontes foram mostradas como codificadas em ANSI e todo o texto exportado / copiado perfeitamente. Por que diabos eu não os combinei no PDF Converter, eu não sei. Obrigado, cartazes!

O mesmo acontece ao abrir os arquivos em um sistema Linux.

Sei que isso não explica os problemas apenas do Windows - a menos que o PDF tenha origens mistas semelhantes?

Jimbo
fonte