Gostaria de digitalizar uma boa quantidade de papéis que tenho por aí, com o mínimo possível de problemas. Gostaria de convertê-los em imagens usando o Simple Scan, depois convertê-los em texto usando OCR. Existe um bom aplicativo de OCR com uma GUI que me trará bons resultados com o pressionar de um botão?
78
Respostas:
O GOCR de é um programa de reconhecimento óptico de caracteres (OCR) que converte imagens digitalizadas de texto em arquivos de texto.
CLARA é outra boa opção gráfica.
O OCRAD de é um OCR pode ser usado como um aplicativo de console independente ou como back-end para outros programas.
O KOOKA from é um aplicativo KDE, mas funciona bem; além disso, você precisa instalar programas reais de OCR, como GOCR e OCRAD.Depois de instalar o Kooka e os programas OCR, você deve apontar o Kooka para o local de instalação do OCR para poder converta o JPEG em texto.
O OCRFeeder de é um sistema de análise de layout de documentos e reconhecimento óptico de caracteres.
O Tesseract de é um utilitário de linha de comando e é muito simples de usar. Você pode instalar o pacote de idiomas tesseract-ocr-eng a partir daqui .
Dê uma olhada nesta página .
Nota:
Para executar o tesseract goto terminal e digite o seguinte
O Tesseract pode ler apenas um arquivo TIFF - se você tiver um JPEG ou PDF ou qualquer outra coisa, precisará convertê-lo. Além disso, a extensão do nome do arquivo deve ser .tif, não .tiff, caso contrário, retire os erros.
fonte
tesseract
(3.04.00 no Ubuntu 15.10) não tem problemas comPNG
arquivos de entrada. ele aceitaJPG
arquivos, mas fornece resultados piores para eles, como seria de esperar de artefatos adicionais de compactação.Existem algumas ferramentas populares de linha de comando do OCR que você pode usar (não tenho certeza se elas têm GUI):
Tesseract ( Leia-me , Perguntas frequentes ) (Python)
Também disponível para: Tesseract .NET , Tesseract iOS
Uso:
GOCR
OCRopus ™ ( FAQ ) (escrito em Python, NumPy e SciPy)
Tessnet2 (código aberto, OCR, Tesseract, .NET, DOTNET, C #, VB.NET, C ++ / CLI)
Poucos outros: ABBYY CLI OCR para Linux , Asprise OCR
Para obter uma lista mais completa, consulte: Lista de software de reconhecimento óptico de caracteres na Wikipedia
Veja também:
wanghaisheng/awesome-ocr
- Uma lista com curadoria de recursos promissores de OCR no GitHub.fonte
solução linux-smart-ocr
Isenção de responsabilidade - Estou intimamente ligado ao desenvolvimento desta solução de código-fonte aberto
Os Lios podem converter impressão em texto usando o scanner ou uma câmera.
Também pode produzir texto a partir de imagens digitalizadas de outras fontes, como PDF, Imagem ou Pasta contendo Imagens.
O programa recebe total acessibilidade para deficientes visuais.
Desde que eu estou intimamente ligado - eu adoraria feedback.
fonte
Gscan2PDF
OCR em PDF de várias páginas ou documentos digitalizados
Esta é provavelmente a maneira mais fácil. O Gscan2pdf é uma ferramenta gráfica que permite não apenas digitalizar arquivos, mas também importar arquivos e executar OCR neles. Instale o gscan2pdf a partir daqui , no Ubuntu Software Center ou executando este comando em um terminal:
O Gscan2PDF pode usar mecanismos de OCR personalizáveis, o padrão é
tesseract-ocr
Você pode considerar selecionar o idioma apropriado. Nesse caso, você precisará instalar o
tesseract-ocr-LANG
pacote, ondeLANG
está o código de idioma ISO 639-2 de três letras. No momento, você possui 108 idiomas no repo de 16.04.fonte
Acabei de ter sucesso (sob 16.04) com pdfocr.rb . Isso está listado no wiki do Ubuntu
Aqui está um ppa, mas o repositório para 16.04 não é atualizado. O script ruby acima do github ainda funciona com o 16.04.
Você pode baixá-lo no Github. Você precisará dos seguintes pacotes instalados:
então tornou o pdfocr.rb executável e executou:
Opcionalmente, você pode usar o
-l LANG
parâmetro Nesse caso, você precisará instalar otesseract-ocr-LANG
pacote, ondeLANG
está o código de idioma ISO 639-2 de três letras. No momento, você possui 108 idiomas no repo de 16.04.fonte
A melhor e mais fácil maneira de usá-
pypdfocr
lo não muda o pdf. pypdfocr é um link do módulo python aqui.No final, você terá outro
your_document_ocr.pdf
como deseja com texto pesquisável. O aplicativo não altera a qualidade da imagem. Aumenta um pouco o tamanho do arquivo adicionando o texto da sobreposição.Eu acho que o comando é bem fácil e não precisa de nenhuma interface gráfica. Talvez a instalação do pypdfocr seja um pouco mais detalhada:
Atualização em 3 de novembro de 2018:
pypdfocr
não é mais suportado desde 2016 e notei alguns problemas por não serem mentidos.ocrmypdf
(o módulo faz um trabalho semelhante e pode ser usado assim:Para instalar:
ou
fonte
Só porque funciona muito bem e definitivamente deve estar na lista:
Exemplo de gimageReader de uma captura de tela:
Está nos repositórios (resposta em 18.10, mas a utiliza há séculos)
fonte
eng
como opção ... mas resolvi! :) Corrersudo apt install tesseract-ocr-eng
no terminal fez o truque. Seria bom se isso estivesse documentado no arquivo de ajuda do gimageReader ou "README" no github ... ou em algum outro lugar. Como aqui, talvez.O gscan2pdf inclui três mecanismos ocr diferentes. Você pode digitalizar diretamente para o programa ou importar seu pdf para o programa. Eu descobri que o mecanismo Tesseract funciona muito bem e é muito fácil de usar
fonte