Eu já vi alguns ebooks / papers aparentemente digitalizados em suas versões em papel, mas o texto dos ebooks / papers pode ser incrivelmente copiado. Suponho que as versões digitalizadas diretamente devam ter sido processadas por algum software de reconhecimento óptico de caracteres.
Então, eu gostaria de saber quais são os softwares de reconhecimento óptico de caracteres recomendados? Especialmente aqueles que são gratuitos ou para o Ubuntu? Se os do Windows forem muito mais superiores, informe-me também.
Estou particularmente interessado nos OCRs que podem aceitar um arquivo PDF digitalizado como entrada e ainda produzir como saída outro arquivo PDF que parece igual ao de entrada, mas com seu texto copiável.
Obrigado e cumprimentos!
Limite um software por resposta
Outro projeto que deve ser capaz de fazer isso é o gscan2pdf
Este projeto também pode usar o Tesseract, bem como outras ferramentas de OCR de código aberto.
fonte
Não conheço nenhum OCR para o Ubuntu, mas para o Windows existe um que possui os recursos necessários. Esse é o ABBYY FineReader, esta é a página, mas não é gratuita
fonte
Existe uma solução gratuita em repositórios , CunieForm (e YAGF como interface do Gnome)
fonte
Parece que o projeto Decapod exporta ou será exportado para PDF; portanto, o Tesseract deve, de alguma forma, exportar as informações necessárias para saber onde o texto foi encontrado.
fonte
O Adobe Acrobat (não leitor, não é um aplicativo gratuito) é capaz de OCR um documento PDF digitalizado e adicionar uma camada de texto invisível na parte superior da imagem, para que o texto possa ser selecionado e copiado. Infelizmente, não tenho a mão para verificar onde exatamente esse recurso está localizado na interface do usuário do Acrobat, mas o tenho usado com sucesso algumas vezes com a mesma finalidade que você mencionou.
E sim, este é um software Windows, não Linux, mas de acordo com o banco de dados do aplicativo Wine HQ, ele funciona no Wine .
fonte
O melhor software de OCR geralmente é incorporado em impressoras / scanners / copiadoras. A Canon IRC 3880 do meu escritório pode produzir ótimos PDFs com OCR mais fácil e rapidamente do que qualquer programa de desktop que eu conheça. Coloque o livro na bandeja (independente), selecione seu endereço de e-mail e pressione o botão verde.
A maioria dos pdfs do OCR que você pode encontrar na rede vem de máquinas similares. O problema é que o preço é alto demais para uso doméstico (cerca de 12.000 euros no IRC).
fonte
Meu software de OCR on-line gratuito e favorito é oferecido pela Ricoh Innovations. Este é um programa beta, mas acho que funciona muito bem. Confira em: http://beta.rii.ricoh.com/betalabs/content/document-conversion
fonte
OCRFeeder
É uma aplicação GUI.
Ele usa o tesseract-ocr ou ocrad como mecanismo de OCR.
Pode instalar com o Software Center ou com,
fonte
O FineReader também possui uma versão online. Ele afirma poder processar PDFs como formato de entrada --- http://finereader.abbyyonline.com/en/Help/Faq/
fonte