Alguns arquivos PDF produzem lixo (" mojibake ") quando você copia texto (mesmo que eles estejam OK). Isso torna impossível procurá-los (o que você procurar não corresponderá ao lixo).
Alguém tem uma solução fácil?
Exemplos:
- Manual TEAC TV EU2816STF (produz problemas acima no Adobe Reader no Windows e no Mac, mas funciona bem na Visualização no Mac)
- Manual Leadtek Winfast PVR2 (link FTP; também tem problemas na Visualização em um Mac)
- Manual da placa sintonizadora de TV Swann (link FTP; também tem problemas na Visualização em um Mac)
- Contrato de licença do Phonedisc (do DTMS agora extinto )
- Revisão trimestral do fundo Macquarie IFP
- Folheto BAN-TACS para pequenas empresas (versão arquivada)
- Folheto Easterfest 2004 (também do arquivo)
Estou usando o Adobe Reader (versão mais recente) para Windows - talvez um visualizador alternativo possa ajudar? Estou procurando uma solução gratuita para Windows. O código aberto seria ainda melhor.
Edit: Os documentos da ferramenta Multivalent Extract Text têm um bom resumo de por que as coisas podem dar errado, incluindo: (documento citado pela última vez em janeiro de 2006)
- O texto pode não ter um mapeamento Unicode. As fontes PDF tipo 3 geralmente não possuem, e o TeX DVI possui caracteres que não possuem equivalentes Unicode.
- A codificação Unicode pode estar com erros. O Open Office mapeia alguns caracteres no mesmo Unicode, resultando em aparente queda de letra e duplicação.
Eu acho que a solução final nesses casos seria OCR cada glifo em uma fonte para descobrir qual personagem realmente é. Observe que isso seria mais fácil do que OCR em um documento digitalizado barulhento porque a forma exata do glifo está disponível (em resolução infinita, pois é uma imagem "vetorial").
fonte
clipbrd.exe
(consulte mydigitallife.info/2008/11/06/… ), você pode ver o que está na área de transferência. O que isso te dá?Respostas:
Foxit Reader , talvez?
Por que vale a pena, eu verifiquei apenas o PDF é ligada ao com o Safari 4.0.4 no Mac OS X 10.6.2 e enquanto não é algum Engrish , o PDF torna perfeitamente sem qualquer "lixo" na tela. Talvez você esteja tendo problemas com Unicode (mais comuns no Windows que no Mac OS)?
fonte
A maneira mais simples de contornar isso é abrir o arquivo em uma versão recente do Google Chrome com o plug-in de leitura de PDF incorporado . Em seguida, você pode usar o recurso de pesquisa do Chrome para encontrar texto e copiar e colar funciona corretamente.
fonte
Para o exemplo do Manual da TV : mesmo problema no Adobe Reader 8.1.2 em um Mac, mas não há problemas ao usar a Visualização do Mac para copiar ou pesquisar texto. Além disso, enviá-lo para uma conta do Gmail e escolher "Exibir" e "HTML simples" revela o texto. Mas o Adobe Reader não gosta.
Suas propriedades do documento mostram "Codificação: Personalizada" para as fontes. Outro documento mostra coisas como "Encoding: Ansi" ou "Roman" e não possui problemas no Preview nem no Adobe Reader em um Mac:
No entanto, os exemplos de Leadtek e Swann também apresentam problemas na Visualização em um Mac e no Gmail, e ambos mostram "Encoding: Identity-H". O teste do Phonedisc também falha, com "Codificação: Personalizada".
Confuso e não consistente, mas em alguns fóruns da Adobe , encontrei a seguinte explicação para mais um exemplo que mostra "Codificação: Personalizada" (ênfase minha):
Isso não explica por que o Mac's Preview (e aparentemente Infix também) pode lidar com alguns dos exemplos quando o Adobe Reader falha, mesmo com "Encoding: Custom". Talvez a Visualização não tenha problemas quando a fonte exata estiver presente no próprio computador? Ou talvez seja apenas adivinhar uma codificação, que funciona para alguns, mas não para todos os documentos?
Qualquer que seja a causa: se a passagem pelo Google Docs ou Gmail não funcionar, talvez a solução mais fácil (mas longe de fácil) seja realmente salvar como TIFF e depois fazer OCR . Serviços como o Evernote podem fazê-lo em tempo real (faz OCR em imagens; duvido que faça OCR em PDF).
fonte
O download do arquivo 1 falhou para mim, arquivo 2 que eu poderia abrir com o xpdf, um visualizador de pdf rápido e de código aberto. Eu acho que ele não pode lidar com formulários, mas para texto puro e gráfico eu prefiro pelo seu rápido tempo de inicialização.
fonte
Infelizmente, isso não pode ser ajudado. Na verdade, os documentos PDF não contêm letras, mas contêm formas de letras. Em outras palavras, em vez de ler uma carta e desenhá-la na tela, o Adobe Reader como qualquer outro aplicativo de leitura de PDF simplesmente desenharia os gráficos vetoriais codificados no arquivo.
No entanto, alguns leitores de PDF vêm com um software que permite analisar a forma e recuperar o texto usando o reconhecimento de texto. Funciona da mesma forma que se você digitalizasse um papel de texto impresso e usasse um software como o ABBYY FineReader para convertê-lo novamente em texto, mas devido à infinita alta qualidade dos resultados de desenhos vetoriais, normalmente são muito melhores do que para documentos digitalizados.
Alguns documentos podem ser protegidos contra a conversão em texto enganando o Adobe Reader. Por exemplo, as letras podem ser desenhadas em várias formas sobrepostas, de maneira que visualmente ainda tenham a mesma aparência, enquanto o software de reconhecimento de texto não reconhecerá o texto. Seu documento é um exemplo dessa proteção.
Uma maneira seria imprimir o documento em uma imagem e permitir que o software de reconhecimento de texto o reconhecesse. Uma resolução mais alta para a imagem melhorará a qualidade. Este método, no entanto, não é realmente útil.
fonte