Eu sempre achei a tecnologia OCR atrasada nos sistemas de código aberto. Eu também assisti o projeto Ocropus desde a sua infância. Eu tentei o que ouvi dizer que é o melhor mecanismo de OCR disponível para Linux, Tesseract e o achei muito ausente em documentos comerciais. Existem outras implementações de OCR mais promissoras? E o objetivo ainda mais promissor de interpretar a caligrafia? O que é possível nos sistemas * nix neste campo?
opensource-projects
ocr
documents
jjclarkson
fonte
fonte
Respostas:
Tesseract
A partir de 2018, o melhor software OCR de código aberto disponível é o Tesseract 4 (beta) com seu novo modelo de OCR de rede neural LSTM . Seu desempenho de OCR é muito melhor que o modelo de OCR anterior usado na versão 3.
Exemplo (produza um arquivo PDF
output.pdf
com uma camada de texto para um documento alemão digitalizado):Imprima o texto reconhecido no stdout:
Listar idiomas instalados:
O suporte para muitos idiomas / scripts está disponível na forma de conjuntos de dados treinados para download , por exemplo, existe até um conjunto de dados para o Fraktur.
Com o novo modelo LSTM, o Tesseract se inspira no projeto de pesquisa do OCRopus .
A versão 3 do Tesseract apresenta desempenho relativamente ruim, mesmo em imagens de entrada de boa qualidade, ou seja, freqüentemente detecta falsamente caracteres únicos em pixels de poeira (fora de qualquer contexto textual) e introduz facilmente erros de caracteres únicos em palavras conhecidas.
Cuneiforme
O desempenho do OCR cuneiforme não é tão ruim, mas não é mantido ativamente (última versão em 2011, versão 1.1), trava facilmente e apresenta alguns outros problemas:
Você pode desativar o algoritmo de layout da seguinte maneira:
(
-l
especifica o idioma do documento de origem)ocrad
O texto é impresso por padrão para stdout.
Em um documento comercial, faltava uma palavra sublinhada, onde cuneiforme / tesserato / gocr não.
gocr
O texto é impresso por padrão para stdout.
Hardware
A Sane tem um suporte muito bom para muitos scanners de alimentação automática de documentos (ADF), por exemplo, os da Avision e Fujitsu .
Incluído no Sane está o
scanimage
programa de linha de comando que você pode usar para criar pipelines de varredura com script (cf. por exemplo, meuadf2pdf.py
script).fonte
Encontrei uma pergunta semelhante no StackOverflow e o Asprise OCR SDK , um dos produtos comerciais vinculados , possui uma versão Linux.
fonte
Existem poucas ferramentas populares de linha de comando do OCR:
Tesseract ( Leia-me , Perguntas frequentes ) (Python)
Também disponível para: Tesseract .NET , Tesseract iOS
Uso:
Exemplo: Tornar o PDF existente pesquisável (OCR) via linha de comando / script
GOCR
OCRopus ™ ( FAQ ) (escrito em Python, NumPy e SciPy)
Tessnet2 (código aberto, OCR, Tesseract, .NET, DOTNET, C #, VB.NET, C ++ / CLI)
Outro já sugerido: ABBYY CLI OCR para Linux , Asprise OCR .
Leia também:
Para obter uma lista mais completa, consulte: Lista de software de reconhecimento óptico de caracteres na Wikipedia.
fonte
... OCR é mais do que "apenas reconhecimento de caracteres". Manuseio de imagens, pré-processamento - análise de página / layout para encontrar textos, imagens, tabelas ou códigos de barras. Para o reconhecimento, você precisa lidar com diferentes fontes, tamanhos e idiomas. Isso é importante porque, para obter bons resultados, é necessário usar dicionários e definições de idioma. Finalmente, as pessoas esperam mais opções de exportação do que texto (por exemplo, XML, RTF ou PDF pesquisável). Existem algumas opções comerciais para SDKs, mas elas não são baratas e gratuitas.
Recentemente eu encontrei um CLI OCR para Linux da ABBYY . Há uma avaliação gratuita de 100 páginas.
fonte
Se você tiver um orçamento, recomendo fortemente a CLI do ABBYY FineReader Engine para Linux . Nossa empresa o utiliza em nosso aplicativo da web há um ano e planejamos renovar a licença. Qualidade de reconhecimento muito boa, interface de linha de comando, reconhecimento em vários idiomas.
fonte