Estou tentando copiar e colar texto de um arquivo PDF.
No entanto, sempre que colo o texto original, há uma enorme confusão de caracteres ilegíveis. O texto se parece com o seguinte (este é apenas um pequeno extrato):
4$/)5=$13! ,4&1*%-! )5'$! 1$2$)&,$40! 65))! .*5)1! -#$! )/'8*/8$03!
(4/+$6&4;0!/'1!-&&)0!*0$1!.9!/,,)5%/-5&'!1$2$)&,$403!5'!+*%#!-#$!
0/+$!6/9! -#/-! &,$4/-5'8! 090-$+! 1$2$)&,$40! .*5)1!1$25%$! 1452$40!
/'1! &-#$4! 090-$+! 0&(-6/4$! %&+,&'$'-0! *0$1! .9! /,,)5%/-5&'!
1$2$)&,$40!-&1/97!"#$!+5M!&(!,4&1*%-!)5'$!/'1!,4&1*%-!1$2$)&,$40!
65))! .$!+*%#!+&4$! $2$')9! ./)/'%$13! #&6$2$43! -#/'! -#$!+5M! &(!
&,$4/-5'8!090-$+!/'1!/,,)5%/-5&'!1$2$)&,$40!-&1/97!
)*+*+, C<88,?>8513AG<5A14,
Eu tentei nos leitores de PDF da Adobe e da Foxit. Fiz um 'Salvar como texto' no Adobe Reader e o arquivo de texto resultante é o mesmo texto ilegível.
Alguma idéia de como posso obter este texto sem distorções? (Além da digitação manual ... há muito texto para extrair.)
Respostas:
A maneira mais simples de contornar isso é abrir o arquivo em uma versão recente do Google Chrome com o plug-in de leitura de PDF incorporado . Em seguida, você pode usar o recurso de pesquisa do Chrome para encontrar texto e copiar e colar funciona corretamente.
Gostaria de votar no comentário do pipitas na resposta do Shiki, mas não tenho os argumentos :( O problema pode ser codificação de fonte personalizada, não criptografia . No Acrobat, clique em Arquivo -> Propriedades e clique na guia Fontes para ver a codificação e a guia Segurança para ver se está criptografada.
fonte
Descobri esse problema com os PDFs criados e acredito que localizei a origem do problema: usando a Visualização do Mac OS X para reduzir o tamanho do arquivo PDF.
Eu criei alguns filtros de quartzo usando o Colorsync Utility para compactar imagens em PDFs para reduzir o tamanho geral do arquivo de PDFs com imagens. Como descrito aqui: http://www.macosxhints.com/article.php?story=20031106133852693
Descobri que sou capaz de copiar e colar facilmente texto do arquivo PDF original (não compactado), mas depois de executá-lo por meio de um filtro Reduzir tamanho do arquivo que criei, o PDF compactado resultante não copia e cola claramente (sai parecendo as strings que você postou).
No entanto, executando o mesmo PDF original através da função Documento> Reduzir tamanho do arquivo do Adobe Acrobat Pro, o PDF compactado resultante pode copiar e colar texto com êxito.
Portanto, isso não é totalmente útil no seu caso, presumindo que seu arquivo PDF tenha sido recebido de outro lugar e que você não possa acessar a versão original, se ele foi realmente compactado de alguma forma. Mas essa pode ser a explicação - que o arquivo foi destruído de alguma forma, em um esforço para reduzir o tamanho do arquivo.
Isso pode ser útil para criadores de conteúdo com problemas semelhantes ao copiar e colar texto de PDFs - tenha cuidado ao usar os filtros do OS X Quartz para reduzir seus PDFs!
--edit-- Eu também notei esse problema ao combinar PDFs com a Visualização. Os dois PDFs de origem podem ser copiados e colados corretamente, mas ao arrastar uma página de um arquivo para outro arquivo e salvar o PDF combinado, o texto no documento combinado não pode ser copiado / colado. Estes são dois documentos gerados ao mesmo tempo com o Filemaker Pro 11 no Mac - não consigo imaginar que eles teriam codificações diferentes ou algo assim.
fonte
Existe outra maneira muito fácil de fazer uma solução alternativa :)
Basta imprimir o documento usando a impressora CutePdf, Adobe 2 Pdf ou qualquer coisa semelhante. A linha inferior é que você precisa imprimir no formato pdf.
Em muitos casos, ele removerá facilmente o problema.
fonte
Solução que funcionou para mim:
Os resultados não foram perfeitos, mas chegaram a 80% do caminho e me forneceram texto suficiente para não precisar reescrever tudo!
fonte
RESOLVIDO: (funcionou para mim no Windows 8, Acrobat XI, Office 2010)
Opção 1:
BINGO!
Comentários:
* Faça o download apenas se você não tiver o XPS instalado.
Opção 2:
Faça o mesmo, mas salve como imagem (png, tiff, ...), então você terá que combinar todas as páginas novamente em um arquivo "PDF".
fonte
Acrobat could not perform OCR on this page because: This page contains renderable text
Existe o risco de que as informações não sejam recuperáveis. Os documentos PDF são essencialmente um documento sobreposto a outro, um texto simples e o outro uma imagem. Ao copiar e colar do documento, você marca o texto enquanto observa a imagem, mas o que é copiado para a área de transferência é a parte correspondente da parte do texto.
Dependendo da maneira como o documento é criado, a qualidade e a disponibilidade da parte do texto podem diferir bastante. Se você salvar um documento do processador de texto no formato PDF, usando o Acrobat, Word, um driver de impressora PDF ou qualquer outro método, a qualidade normalmente será excelente, pois o arquivo de texto pode ser criado a partir do texto do original. Alguns caracteres especiais podem ficar distorcidos, mas o texto sem formatação geralmente é bom.
Se o documento for criado a partir de uma imagem digitalizada, no entanto, a parte do texto é normalmente criada pelo processamento de OCR da imagem, o que pode produzir resultados bastante ruins, especialmente se o original for abaixo do ideal para o objetivo.
Um programa ruim usado para criar o PDF, ou as configurações incorretas, também pode fazer com que a parte do texto fique completamente distorcida, como poderia, de forma perceptível, que alguns tipos de criptografia sejam executados no arquivo após a criação.
A conclusão é que, se a parte do texto do documento estiver realmente ruim, não há como torná-lo melhor. Sua melhor aposta seria remover completamente a parte do texto e fazer com que o programa refizesse o processo de OCR. Acho que isso pode ser possível no Acrobat, mas não tenho certeza.
fonte
Um possível motivo para isso pode ser o fato de a incorporação de fontes no PDF estar usando uma codificação personalizada, que não é aplicada corretamente ao copiar texto do PDF.
Você pode aplicar métodos diferentes para evitar digitar manualmente todo o conteúdo.
fonte
Um dos meus usuários relatou o mesmo problema (o PDF foi criado com o Distiller para Windows), que o texto copiado é apenas texto ilegível e ele não pôde pesquisar dentro de um documento. Eu tentei no meu Mac e não encontrei nenhum problema. Acabou que eu usei o aplicativo Preview da Apple, enquanto ele usava o Adobe Reader em sua máquina Windows. Então tentei o Adobe Reader no meu Mac e enfrentei o mesmo efeito. Para mim, parece:
O Adobe Reader está tentando e pesquisando no texto salvo.
O Preview da Apple copia e pesquisa após a aplicação do vetor de codificação.
Não posso dizer isso com certeza, mas isso explicaria minha observação. E de fato permitiria criar todos os tipos de codificação ao salvar arquivos combinados / reduzidos, conforme descrito em outro post aqui: com o Preview, você ainda pode obter o texto novamente.
Primeiro, pensei que seria mais lógico codificar o subconjunto de fontes incorporado como entradas contíguas, em vez de deixar buracos dentro e usar o local do caractere original. Mas então eu percebi que, usando um vetor de codificação para o subconjunto de fontes com entradas originais, os caracteres frequentemente usados podem ter menos bits definidos como 1 em seu byte e podem ser compactados de uma maneira melhor (isso pode diminuir a entropia do texto geral dessa maneira).
fonte
Carregá-lo nos documentos do Google e usar a opção Exibir> HTML simples fornece um texto copiável de texto correto para cerca de 80%, com alguns espaços faltando.
Este tópico com resposta aceita para o mesmo problema explica isso com um exemplo de trabalho.
fonte
Eu não tentei a opção Google Docs, pois ela ainda não é suportada no meu escritório. No entanto, imprimindo o arquivo em "ScanSoft PDF Create!" do "Acrobat 9" (imprime o arquivo inteiro na imagem) e, ao abrir o arquivo no "Nuance PDF Converter" (ele me perguntou se eu queria tornar o arquivo de imagem pesquisável e editável, com o qual optei), consegui tem um documento do Word no qual posso copiar e colar facilmente. Não é perfeito, porém, com apenas cerca de 80-90% de precisão. Mas, ei, você ainda tem o arquivo PDF original para comparar e compensar as partes que simplesmente não podem ser corrigidas. Economiza tempo ao digitar tudo. Meu 2c.
fonte
Criei alguns PDFs de texto editável com uma versão antiga do Scansoft PDF Converter para Windows XP e, em seguida, combinei as páginas no programa Preview do Mac. Para cada uma das páginas separadas, eu poderia pesquisar, copiar e exportar texto corretamente do Adobe Reader no Mac. Quando combinados pelo Preview e salvos como um arquivo, todos pareciam bem na tela, mas apenas algumas passagens eram pesquisáveis / exportáveis corretamente. Esse problema me trouxe aqui.
As postagens aqui me deram algumas boas dicas (obrigado!). Eu olhei as propriedades do arquivo para fontes. Os arquivos de página única do Win XP (onde tudo está bem) disseram que a codificação era ANSI. O arquivo combinado na Visualização (onde o texto copiado é ilegível) mostrou a codificação para a maioria das fontes como "Interna" e algumas como "Romana".
A solução para o meu problema estava embaixo do meu nariz o tempo todo - o próprio programa Scansoft pode combinar arquivos. Quando usei o combinador da Scansoft e abri o arquivo no Mac, todas as fontes foram mostradas como codificadas em ANSI e todo o texto exportado / copiado perfeitamente. Por que diabos eu não os combinei no PDF Converter, eu não sei. Obrigado, cartazes!
O mesmo acontece ao abrir os arquivos em um sistema Linux.
Sei que isso não explica os problemas apenas do Windows - a menos que o PDF tenha origens mistas semelhantes?
fonte