Recomendações de software para reconhecimento óptico de caracteres?

15

Eu já vi alguns ebooks / papers aparentemente digitalizados em suas versões em papel, mas o texto dos ebooks / papers pode ser incrivelmente copiado. Suponho que as versões digitalizadas diretamente devam ter sido processadas por algum software de reconhecimento óptico de caracteres.

Então, eu gostaria de saber quais são os softwares de reconhecimento óptico de caracteres recomendados? Especialmente aqueles que são gratuitos ou para o Ubuntu? Se os do Windows forem muito mais superiores, informe-me também.

Estou particularmente interessado nos OCRs que podem aceitar um arquivo PDF digitalizado como entrada e ainda produzir como saída outro arquivo PDF que parece igual ao de entrada, mas com seu texto copiável.

Obrigado e cumprimentos!

Limite um software por resposta

Tim
fonte

Respostas:

10

OCR do Tesseract Instale o OCR do Tesseract

O mecanismo original foi desenvolvido no final dos anos 80 pela HP e IBM, mas provou ser um dos melhores softwares de reconhecimento ocular que já usei. Recentemente, passou por muitas atualizações no mecanismo e se tornou uma das ferramentas de OCR mais abrangentes do mercado. Superando a maioria das outras ferramentas de OCR (com algo no percentil 90 mais alto de correspondências de texto), pode facilmente transformar o tipo de documento padrão em texto.

A seguir, um exemplo:

tesseract ScannedDocument.png out

Produzirá um arquivo chamado out.txt

Dennis
fonte
Obrigado! Não vi que o Tesseract suporta saída em pdf. Você sabe disso?
StackExchange for All
@ Tim, nativamente, não acredito que o Tesseract suporte muitos formatos de entrada / saída. No entanto, como a resposta da JanC menciona, o gscan2pdf usa o Tesseract para OCR e, como o próprio nome indica, suporta a saída de PDF.
quer
Observe que OCR significa Reconhecimento óptico de caracteres: en.wikipedia.org/wiki/Optical_character_recognition
Jose Gómez
8

Outro projeto que deve ser capaz de fazer isso é o gscan2pdf

sudo apt-get install gscan2pdf

Este projeto também pode usar o Tesseract, bem como outras ferramentas de OCR de código aberto.

Mark Kirby
fonte
3

Não conheço nenhum OCR para o Ubuntu, mas para o Windows existe um que possui os recursos necessários. Esse é o ABBYY FineReader, esta é a página, mas não é gratuita

vicmp3
fonte
1
Eu costumava FineReader exatamente como Tim quer (para abrir PDFs protegidos)
Extender
3

Existe uma solução gratuita em repositórios , CunieForm (e YAGF como interface do Gnome)

Extender
fonte
Obrigado! O CunieForm suporta pdf como formatos de entrada e saída? Eu não vi isso na página da Wikipedia e na página oficial.
StackExchange for All
Talvez não, mas dividida PDF a série de TIFF é simples de qualquer maneira tarefa :)
Extender
3

Parece que o projeto Decapod exporta ou será exportado para PDF; portanto, o Tesseract deve, de alguma forma, exportar as informações necessárias para saber onde o texto foi encontrado.

JanC
fonte
1

O Adobe Acrobat (não leitor, não é um aplicativo gratuito) é capaz de OCR um documento PDF digitalizado e adicionar uma camada de texto invisível na parte superior da imagem, para que o texto possa ser selecionado e copiado. Infelizmente, não tenho a mão para verificar onde exatamente esse recurso está localizado na interface do usuário do Acrobat, mas o tenho usado com sucesso algumas vezes com a mesma finalidade que você mencionou.

E sim, este é um software Windows, não Linux, mas de acordo com o banco de dados do aplicativo Wine HQ, ele funciona no Wine .

Serge Broslavsky
fonte
1

O melhor software de OCR geralmente é incorporado em impressoras / scanners / copiadoras. A Canon IRC 3880 do meu escritório pode produzir ótimos PDFs com OCR mais fácil e rapidamente do que qualquer programa de desktop que eu conheça. Coloque o livro na bandeja (independente), selecione seu endereço de e-mail e pressione o botão verde.

A maioria dos pdfs do OCR que você pode encontrar na rede vem de máquinas similares. O problema é que o preço é alto demais para uso doméstico (cerca de 12.000 euros no IRC).

Javier Rivera
fonte
1

OCRFeeder

É uma aplicação GUI.

insira a descrição da imagem aqui

Ele usa o tesseract-ocr ou ocrad como mecanismo de OCR.

Pode instalar com o Software Center ou com,

sudo apt-get install ocrfeeder
user224082
fonte