Como posso extrair texto de imagens?
Não estou falando de arquivos digitalizados, mas de imagens de variedades de jardins, como quando você tira uma foto em alta definição de um quadro negro na sala de aula, e é bem manuscrita; ou quando você fotografa uma página de um livro de receitas e deseja a receita em formato de texto.
Algum software livre e aberto para isso?
Eu tentei tesseract, e os resultados foram terríveis.
software-recommendation
images
ocr
Strapakowsky
fonte
fonte
Respostas:
O ato de extrair texto de imagens é chamado
OCR
e o Ubuntu tem uma página wiki dedicada ao OCR . A partir dessa página:Ferramentas OCR disponíveis
Os repositórios do Ubuntu Universe contêm as seguintes ferramentas de OCR:
Os repositórios multiversos do Ubuntu também contêm:
Alguns pacotes estão desatualizados, mas novos não oficiais podem ser encontrados no Alex_P PPA (PPA adicionando código: ppa: alex-p / notesalexp). Se você nunca usou um PPA, verifique como adicionar software a partir de um PPA .
editar: Como mostrado no comentário, o Clara OCR também existe, mas ficou duro no Hardy e seu site tem 2009 como última atualização.
fonte
OCR
funciona melhor se você sabe como a imagem é criada e é muito versado no uso do software que usa (sendo este último o motivo pelo qual nunca cheguei a usá-lo).tesseract-ocr
seria o grande comparado a todos os outros. Para instalação, execute o comandosudo apt-get install tesseract-ocr
.O uso é
tesseract filename.jpg output.txt
.O comando acima será gerado
output.txt
.Você pode considerar selecionar o idioma apropriado. Nesse caso, você precisará instalar o
tesseract-ocr-LANG
pacote, ondeLANG
está o código de idioma ISO 639-2 de três letras . No momento, você tem 123 idiomas no repositório 18.04. Então use por exemplo:fonte