Eu tenho vários milhares de páginas de páginas de livros digitalizados. Cada página é salva individualmente como um JPG. A escrita é clara, mas as fontes variam e as páginas incluem figuras e ilustrações.
Preciso criar uma lista de todas as palavras que aparecem em cada arquivo JPG. Existe uma ferramenta de linha de comando para digitalizar uma imagem listando as palavras que aparecem? Não precisa ter uma digitalização perfeita, apenas uma estimativa.
command-line
ocr
Aldeia
fonte
fonte
Respostas:
O tesseract é provavelmente a solução mais usada aqui. Está disponível na maioria dos repositórios de pacotes, por exemplo,
e pode ser usado com
fonte
Instalar
imagemagick
,pdftotext
(encontrado em um pacote chamadopoppler-utils
dentro de alguns gestores de pacotes) e ocrmypdf . O último é rápido (o ocr exige muita CPU e está configurado para usar todos os seus núcleos), um software de OCR de código aberto e atualizado com freqüência. Essa abordagem é possivelmente um exagero, pois na verdade tenta atribuir uma string a cada palavra, em vez de apenas rotular uma palavra, mas tive muitos problemas para encontrar o software OCR de código-fonte bom e fácil de usar em geral. Em seguida, no diretório em que você salvou todos os seus JPGs:fonte
ocrmypdf
fez o meu diaUpscale image file.png em 480%, altere para escala de cinza, preencha com branco, afie e extraia usando o OCR tesseract. Funciona bem na maioria das vezes para mim, exceto para fontes muito grandes e branco sobre preto. Se as fontes forem muito grandes, apenas upscale 200% ou 300%.
O resultado está em file.txt.
fonte
Para usuários do Linux, nada funciona tão bem quanto usar o Caliber para converter pdf em docx. https://calibre-ebook.com/download_linux
fonte
TL; DR
for i in /path_to/*.jpg;do ./myocr.sh $i $(basename $i .jpg);done
Fonte: https://help.ubuntu.com/community/OCR
fonte