Os PDFs geralmente contêm fontes sem mapeamentos explícitos para Unicode, impedindo-nos de extrair o texto correto deles - maldição, Adobe!
Preciso processar PDFs em lotes em um sistema Linux. Eu tenho vários exemplos aqui com linhas hifenizadas, mas para as quais nenhuma ferramenta que tentei pode identificar os hífens; os resultados sempre contêm muitas meias-palavras quebradas.
Existe uma maneira de contribuir com o mapeamento de caracteres ausentes, em vez de eliminar os símbolos indefinidos?
linux
pdf
unicode
character-encoding
embedded-fonts
Aaron Brick
fonte
fonte
Respostas:
O exemplo de PDF está codificado corretamente: inclui tabelas de fonte para unicode e, se eu tentar copiar e colar
mupdf
, o hífen em Хлебникова no segundo parágrafo se tornará U + 00AD SOFT HYPHEN. Portanto, deve ser possível juntar palavras, se desejado, com um pouco de pós-processamento.Infelizmente, para muitas ferramentas PDF, o suporte a Unicode está quebrado.
É difícil identificar espaços em PDFs, porque o formato PDF não descreve espaços, apenas descreve onde os glifos são colocados na página. Portanto, o algoritmo de adivinhação de espaço no ebook-convert parece subótimo, mas isso não tem nada a ver com a codificação.
AFAIK,
mupdf
não inclui uma ferramenta para extrair lotes de texto, mas o Google encontra, por exemplo, esse código de terceiros. Eu não tentei.fonte