Como posso extrair texto de imagens?

25

Como posso extrair texto de imagens?

Não estou falando de arquivos digitalizados, mas de imagens de variedades de jardins, como quando você tira uma foto em alta definição de um quadro negro na sala de aula, e é bem manuscrita; ou quando você fotografa uma página de um livro de receitas e deseja a receita em formato de texto.

Algum software livre e aberto para isso?

Eu tentei tesseract, e os resultados foram terríveis.

Strapakowsky
fonte
Eu preciso de um OCR que suporte Bengali e Inglês simultaneamente.
Alhelal 8/17

Respostas:

26

O ato de extrair texto de imagens é chamado OCRe o Ubuntu tem uma página wiki dedicada ao OCR . A partir dessa página:

Ferramentas OCR disponíveis

Os repositórios do Ubuntu Universe contêm as seguintes ferramentas de OCR:

  1. gocr - Um OCR da linha de comando
  2. fuzzyocr - plugin spamassassin para verificar anexos de imagem
  3. libhocr0 - OCR hebraico
  4. ocrad - programa de reconhecimento óptico de caracteres
  5. ocrfeeder - Análise de layout de documentos e sistema óptico de reconhecimento de caracteres
  6. ocropus - análise de documentos e sistema de OCR
  7. tesseract-ocr

Os repositórios multiversos do Ubuntu também contêm:

  1. cuneiforme - sistema OCR multilíngue

Alguns pacotes estão desatualizados, mas novos não oficiais podem ser encontrados no Alex_P PPA (PPA adicionando código: ppa: alex-p / notesalexp). Se você nunca usou um PPA, verifique como adicionar software a partir de um PPA .

editar: Como mostrado no comentário, o Clara OCR também existe, mas ficou duro no Hardy e seu site tem 2009 como última atualização.

Rinzwind
fonte
Você tem experiência em usar algum desses exemplos? Tornei-me um pouco cético em relação às ferramentas regulares de ocr para eles. O número 7 da lista é o que eu tentei e foi claramente terrível.
Strapakowsky
Se bem me lembro, também tentei o gocr, com resultados terríveis equivalentes. Se você tentou com êxito algum desses, que sintaxe você usou? Obrigado.
Strapakowsky
Nenhuma! Eu nunca me preocupei com OCR: D Freshmeat de busca mostra Clara OCR e tesseract-ocr;) ( freshmeat.net/search/... )
Rinzwind
Estou errado se disser que o uso bem-sucedido do OCR requer conhecimento do processo e uma configuração cuidadosa para se ajustar à imagem a ser digitalizada? Portanto, se eu estiver certo, maus resultados podem ser devidos ao usuário e não ao software.
NN
OCRfunciona melhor se você sabe como a imagem é criada e é muito versado no uso do software que usa (sendo este último o motivo pelo qual nunca cheguei a usá-lo).
Rinzwind 31/08/11
18

tesseract-ocrseria o grande comparado a todos os outros. Para instalação, execute o comando sudo apt-get install tesseract-ocr.

O uso é tesseract filename.jpg output.txt.

O comando acima será gerado output.txt.

Você pode considerar selecionar o idioma apropriado. Nesse caso, você precisará instalar o tesseract-ocr-LANGpacote, onde LANGestá o código de idioma ISO 639-2 de três letras . No momento, você tem 123 idiomas no repositório 18.04. Então use por exemplo:

tesseract mySpanishText.jpg output -l spa
Sudhir Belagali
fonte
Ei, isso funciona, mas não é preciso, ou eu prefiro dizer que é 80-85% preciso. Como exemplo para esta imagem: pbs.twimg.com/media/DJs6_pcXkAA2VrN.jpg , ela estragou o sinal $ e também a maioria dos colchetes. Quadrado, redondo, encaracolado, todos os colchetes são um problema, eles nunca são extraídos corretamente. Você conhece alguma correção?
Milan Chheda