Como posso obter a contagem de palavras de um arquivo PDF? Eu acho que a maioria dos arquivos pdf para os quais eu quero obter uma contagem total de palavras possui uma camada de texto incorporada, por isso não preciso de OCR.
A tarefa surgiu da pesquisa de alguns artigos científicos de tamanho conhecido, por exemplo, 15.000 palavras. A maioria dos artigos sobre moders é publicada em formato pdf
pdf
word-count
osgx
fonte
fonte
pdftotext
: não esqueça o e. E você pode usar um único comando:pdftotext myfile.pdf - | wc -w
.pdftotext
faz parte do Xpdf, que também está disponível para a plataforma Windows. A página de download do Xpdf está localizada aqui: foolabs.com/xpdf/download.html .wc
também pode ser encontrado, mas como alternativa, pode-se usar praticamente qualquer processador de texto, como o Word ou o LibreOffice Writer. Eles contam palavras também. (Para o LibreOffice Writer, vá para Arquivo -> Propriedades -> Estatísticas)Esta é uma tarefa difícil, não fácil de resolver. Se você realmente deseja um resultado exato, copie parágrafo por parágrafo do visualizador de PDF em um arquivo de texto e verifique-o com a
wc -w
ferramenta. A razão pela qual não usarpdftotext
nesse caso é: fórmulas matemáticas também podem aparecer na saída e consideradas como "palavras". (Como alternativa, você pode editar a saída obtidapdftotext
). Outra razão pela qual isso pode falhar são os títulos: "4.3.2 Foo Bar" é contado como três palavras.Uma maneira de contornar é apenas contar palavras que começam com um caractere de [A-Za-z]. Então, o que eu costumo fazer é uma abordagem em duas etapas:
obtenha a lista de palavras uniq e verifique se há muitos falsos positivos dentro:
pdftotext foo.pdf - | tr " " "\n" | sort | uniq | grep "^[A-Za-z]" > words
Não uso um dicionário aqui, pois alguns erros de ortografia não contam como palavras.
Obtenha esta lista de palavras e grep-a na saída de pdftotext:
pdftotext foo.pdf - | tr " " "\n" | grep -Ff words | wc -l
Sei que isso poderia ser feito em um único liner, mas não pude ver facilmente o resultado do filtro desde o primeiro passo. O
-F
pode ajudá-lo como indicado pelo comentário de moi abaixo (obrigado).fonte
grep -Ff words
, porque o grep reclama de "Incomparável [ou [^". Na página de manual: `` -F, --fixed-strings Interprete PATTERN como uma lista de strings fixas, separadas por novas linhas, qualquer uma das quais deve ser correspondida. (-F é especificado por POSIX.) ``Acabei de experimentar um programa gratuito, o Translator's Abacus . Você pode arrastar e soltar vários tipos de arquivo (incluindo PDF) e ele exibe um navegador com um relatório imprimível da contagem de palavras para cada documento. Funcionou bem para mim. (Ele foi criado especificamente para a contagem de palavras e tem apenas 435 KB ... ou seja, não é um "grande aplicativo"). O Ábaco do Tradutor não funciona no PDF 1.5 ou posterior.
Como alternativa : você pode apenas Ctrl+ Apara selecionar todo o texto no Acrobat Reader e copiá-lo e colá-lo em um programa como o Microsoft Word (que possui uma contagem de palavras na barra de status na parte inferior da tela).
fonte
Uma maneira simples de fazer isso se você estiver usando o Acrobat Pro é exportar o PDF para um documento do Microsoft Word e depois fazer a contagem de palavras no Word. Como alternativa, você pode exportá-lo para um arquivo de texto simples e usar um utilitário de contagem de palavras no editor de texto de sua escolha /. Acabei de contar um artigo em pdf usando o método Word e demorou 30 segundos para concluir.
Espero que isto ajude.
fonte
Você pode instalar o OCRFeeder . Nele, escolha Arquivo-> Importar PDF-> Detectar e reconhecer automaticamente todas as páginas-> Exportar para ODT e o documento do gravador do libreoffice estará pronto para a contagem de palavras ou qualquer outra função RTF que você queira usar.
fonte
Acho a palavra contador incluída nas ferramentas abracadabra conveniente. A instalação é um pouco peculiar.
fonte
Você pode usar o JavaScript do console do Adobe Acrobat com o seguinte código, que tirei da resposta de Dave Merchant em forums.adobe.com :
Testado com o Adobe Acrobat Pro DC 2018.011.20040 no Windows 7 SP1 x64 Ultimate.
Para ativar o JavaScript Console:
Para iniciar a janela do console JavaScript:
CTRL + J
Para sua informação, se você tiver a fonte LaTeX correspondente ao PDF: Contagem correta de palavras de um documento LaTeX .
fonte
O padrão de fato, usado pelos tradutores desde 2000, é o AnyCount Word Count Tool. Ele conta contagens de palavras em PDF e 37 outros formatos.
fonte
Ctrl+ Shift+ Fdigite a pesquisa avançada, digite a palavra e ela contará quantas vezes ela está no documento. Não é ciência de foguetes.
fonte