Conteúdo em PDF - a maneira mais rápida de saber se é texto ou gráfico digitalizado?

1

Usando Adobe Reader 9 Eu estou olhando para um documento PDF com páginas e páginas de texto.

Eu acho que é um gráfico digitalizado em vez de um texto verdadeiro. Eu não estou particularmente familiarizado com o formato PDF, mas suponho que ele distingue entre conteúdo de texto verdadeiro e conteúdo gráfico (algo como HTML faz ou MSWord).

O Acrobat tem várias ferramentas / modos. Se eu selecionar o Selecione a ferramenta e arraste o mouse sobre o texto e ele apenas cria um retângulo, (ao invés de bloquear o destaque das palavras) então é um gráfico certo?

Como você deve ter adivinhado, estou esperando que esteja errado, mas só quero ter certeza.

hawbsl
fonte

Respostas:

1

O Acrobat Reader deve ter um selecionar texto ferramenta, use isso em vez da ferramenta de seleção regular. A ferramenta de texto selecionado tem um T maiúsculo ao lado de um cursor, como em Estes dois paginas web .

Eu não usei o Acrobat Reader há anos, então não posso confirmar se selecionar texto ainda está disponível na versão 9. Se não estiver, tente usar a ferramenta de seleção regular e, em seguida, copie. Se você pode colá-lo no Bloco de Notas ou na caixa de diálogo Executar, então é texto, se você pode colá-lo no MSPaint, é um gráfico.

Como alternativa, você também pode usar outro programa para PDFs. A Foxit é popular e tem um leitor gratuito como o Acrobat, mas eu pessoalmente uso o Google Chrome agora porque ele tem um plug-in que funciona muito bem para qualquer finalidade geral de leitura de PDF, incluindo a seleção e a cópia de texto (o Google Chrome é ótimo como PDF leitor, mesmo que você não queira usá-lo como navegador!)

Synetech
fonte
0

Sim. Usar a ferramenta selecionada é a maneira mais fácil de determinar isso. No entanto, às vezes, o Adobe Reader usa o OCR para copiar texto de imagens como texto, não imagem.

Olli
fonte
0

Não sei nada sobre o Adobe Reader, mas as ferramentas de PDF com as quais estou familiarizado (o Okular e o Evince) têm a opção de mostrar fontes para um documento. Um documento que não mostra fontes provavelmente é digitalizado, enquanto um que se refere a pelo menos uma fonte pode ter texto real. Não é à prova de idiotas, mas talvez melhor que nada?

Se o Adobe Reader não listar fontes, talvez os utilitários fornecidos com Poppler (a biblioteca por trás do Okular e Evince) pode ajudar?

gspr
fonte
0

Usar Ctrl-F para encontrar texto (por exemplo, "a", "e" e "i"; se nenhum deles for encontrado, quase certamente o documento não contém texto). Se funcionar, é texto ou OCR.

Com C-a C-c Eu não tenho nada no bloco de notas (C-v). Essa é outra maneira de verificar se não tem texto, eu acho.

"Propriedades do arquivo & gt; Fontes" (ou clique com o botão direito em & gt; Propriedades & gt; Fontes) não está OK: testei um arquivo gráfico e ele tinha três fontes. Também não localizei nenhuma outra propriedade diferente de um pdf de texto.

user653283
fonte