Não é possível copiar texto de um arquivo pdf

40

Estou usando o foxit PDF reader para visualizar meu livro de texto. Gostaria de copiar o texto do arquivo pdf em um documento do Word, mas ele não me permite. Posso selecionar o texto com precisão, mas a opção de copiar texto não está disponível. Eu posso copiar texto de outros documentos, mas não de alguns. Existe uma maneira de contornar essa proteção no Windows?

Jonno_FTW
fonte
Vejo que minha resposta não funciona para você, então você postou uma recompensa. Se você postar em algum lugar um exemplo de um pdf, vou dar uma olhada nele.
22412 harrymc
@harrymc: Especificamente, eu estava procurando copiar os valores da tabela 6.15 de acousticslab.org/papers/VassilakisP2001Dissertation.pdf
endolith
@ endolith: Veja minha nova resposta.
21912 harrymc

Respostas:

29

O arquivo pdf provavelmente foi bloqueado contra a cópia de texto. Abaixo estão duas maneiras de desbloqueá-lo:

  1. Se o pdf não tiver sido bloqueado contra impressão, você poderá imprimi-lo em uma impressora pdf virtual para criar um arquivo desbloqueado. Veja o seguinte:
    "Remova a senha e desbloqueie o PDF protegido que permitia ser impresso sem saber segredo" .
  2. Se a função de impressão estiver bloqueada, consulte o seguinte:
    "Remover restrições e decriptografar arquivos PDF protegidos por senha com o PDF Unlocker" .
harrymc
fonte
Você pode ver se o PDF está bloqueado para cópia. No menu Arquivo, escolha Propriedades e, na guia Segurança, indica se a cópia de conteúdo é permitida.
Rob Sedgwick
Tentei imprimir o PDF. O arquivo impresso não permite selecionar texto, parece que converteu texto em imagem.
queezz 17/01
@ queezz: O PDF deve conter as imagens para começar.
harrymc 17/01
@harrymc Sim, existem imagens. Mas o texto também é convertido em imagens. A opção Google Chrome funciona bem no mesmo documento.
queezz 17/01
Seu primeiro link para o link: primopdf.com/installers/4.0.1/FreewarePrimo64Setup.exe, que é ruim, não funciona e parece que você nem sequer o arquivou no archive.org. O seu segundo link está ok, mas está vinculado a um site de compartilhamento de arquivos dfiles.eu/files/7kiqyvswk, mas o arquivo está ok, verificado com virustotal. Mas não é tão fácil de encontrar, pois existem vários links nessa página da mydigitallife. É onde se lê "PDF Unlocker é uma ferramenta gratuita e fácil de usar, que pode ser baixada através do link aqui (versão atual 1.0.4)".
barlop 15/04
25
  1. Abra o PDF no Google Chrome (arraste e solte o arquivo PDF no Chrome).
  2. Imprima a página específica como PDF ou apenas abra a visualização de impressão.
  3. Agora você pode copiar o texto da visualização de impressão ou da saída do PDF. Mas não acho que você possa copiar a tabela diretamente.
Khaleel
fonte
4
Isso funciona para mim também. Este é o método mais fácil que vejo aqui.
endolith 16/07/12
3
Absolutamente brilhante. Ah, você pode arrastar arquivos para a barra de guias do Chrome para abri-los rapidamente, a propósito.
iono
Nenhum desses métodos funcionou para mim no Chrome 53. A brecha possivelmente foi fechada?
Simon East (
11

Consegui criar uma versão sem DRM do seu arquivo PDF usando o Ghostscript (disponível para Windows).

gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -sOutputFile=stripped.pdf VassilakisP2001Dissertation.pdf

O arquivo resultante stripped.pdfpode ser carregado no Adobe Reader, e o Reader permitirá que você copie qualquer parte que desejar. Ele também preserva a maior parte da formatação da tabela.

Michael Hampton
fonte
Isto é brilhante. Meu contador se recusa a me fornecer PDFs não DRM, nem a senha para remover o DRM. Isso resolve meu problema. Excelente trabalho!
Kevinarpe
Se o PDF tiver uma senha, inclua a -sPDFPasswordopção ( -sPDFPassword=password).
palswim
2

Consegui copiar a tabela do seu arquivo PDF com sucesso usando o Okular (para Linux; parte do KDE). Para fazer isso, tive que entrar nas configurações do Okular e desmarcar "Obedecer às restrições de DRM".

Estou ciente de que isso realmente não ajuda muito desde que você está executando o Windows, mas é uma possibilidade se você tiver uma máquina Linux à mão ou quiser instalá-la.

Infelizmente, era texto sem formatação, mas parece que não deve ser muito difícil recriar a tabela. Você pode ver os resultados da minha aventura de copiar e colar aqui .

Michael Hampton
fonte
É para isso que serve o VirtualBox. : O DI também pode copiar o texto sem formatação, mas selecionando uma coluna por vez, é muito fácil exportar.
Endolith 15/07
Parece que isso é melhor para tabelas de números, pois o Okular permite fazer uma seleção retangular de texto e extrair uma única coluna em ordem.
Endolith 16/07/2012
Para colunas únicas, provavelmente sim. Para toda a tabela, veja minha outra resposta .
22460 Michael JacksonJul
Observe que o Okular pode ser executado no Windows. De fato, muitos softwares do KDE podem ser executados no Windows .
Bakuriu 4/12/13
1

Você pode usar o GT Text é um programa que traduz imagens (também instantâneos em pdf = imagem) em texto. Você pode selecionar a área e copiá-la para a área de transferência. É grátis

A página inicial oficial é http://gttext.googlecode.com

David
fonte
1

se a cópia estiver acinzentada, como agora a dúvida é para você, o PDF está 'bloqueado', pode ser lido, mas está impedindo que você copie / cole qualquer coisa nele.

Este site desbloqueia um PDF

https://smallpdf.com/unlock-pdf

barlop
fonte
0

Se você está procurando apenas trechos curtos, geralmente pode digitar algumas palavras no google dentro de aspas e encontrar a citação exata já digitalizada em outro formato ou digitada por outra pessoa.

Outra opção é "Documento da foto" no aplicativo Google Docs para Android, que colocará o texto no OCR. Isso é propenso a erros, é claro.

Desejo que a funcionalidade de bloqueio de PDF nunca exista. :(

endólito
fonte
0

Resposta ao endólito:

Seu PDF está protegido contra cópia, mas não contra impressão.

Portanto, imprimi a página que contém a tabela 6.15 em outro PDF que não está protegido contra cópia, selecionei e copiei a tabela e colei-a no Word. Para minha grande surpresa, o resultado da pasta foi um lixo total.

Agora olhei mais de perto esta tabela e encontrei um resultado muito surpreendente: Esta não é uma tabela!

Na verdade, é uma montagem de pequenos pedaços de texto, posicionados na página para parecer uma mesa. Mas essa não é uma mesa real.

O melhor que você pode fazer é reescrever a coisa toda como uma tabela ou apenas usar no seu trabalho uma captura de tela deste texto montado em forma de tabela.

Aqui está minha captura de tela da tabela, conforme tirada do documento PDF de uma página gerado :

imagem

harrymc
fonte
Tentei imprimi-lo com 2 programas, mas tudo o que consegui foi uma página em branco.
Endolith 15/07
Usando o Foxit Reader , me posicionei na página e imprimi a página atual em uma impressora pdf (usei o Cute Pdf Writer ). Vou tentar analisar o problema de copiar a tabela esta noite,
harrymc
Tentei PrimoPDF e qvPDF (que usa GhostScript)
endolith
Veja minha adição acima.
harrymc
... Também carreguei meu pdf de uma página aqui (tempo de espera de 60 segundos).
21912 harrymc
0

Outra possibilidade é Evince .

No Windows , parece oferecer suporte à cópia por padrão.

No Linux, a cópia pode ser ativada verificando a override_restrictionsconfiguração, se ainda não estiver, seguindo estas instruções ( dconf-editor/org/gnome/evinceoverride_restrictions).

endólito
fonte