Eu tenho o Linux Mint 17.2 x32 Cinnamon. Provavelmente, essas etapas também funcionariam no Ubuntu 14.04 x32.
- Instalar o Tesseract OCR sudo apt-get install -y tesseract-ocr tesseract-ocr-eng Você pode adicionar outros idiomas instalando pacotes adicionais. Esta captura de tela é da synaptic:
Pacotes de idiomas do Tesseract no Synaptic
Usando o Tesseract
OPÇÃO 1 - pelo terminal aberto da linha de comando, vá para a pasta onde você mantém os arquivos de imagem (jpg, png) e execute o comando:
a) converter todos os arquivos de imagem em texto
for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" text; done
Para mesclar todos os arquivos de texto em um, execute um comando cat *.txt >> all.txt
b) converter todos os arquivos de imagem em arquivos hocr (abra com o Firefox)
for i in *png; do b=`basename "$i" .png`; tesseract -l eng "$i" "$b" hocr; done
OPÇÃO 2 - por GUI
a) Instale o gImageReader e use-o
sudo add-apt-repository -y ppa:sandromani/gimagereader
sudo apt-get update
sudo apt-get install -y gimagereader
b) A segunda aplicação é o VietOCR. A versão real é 4.0, então faça o download do VietOCR-4.0.zip
Descompacte os arquivos e abra o VietOCR.jar por Java:
Abra o VietOCR by Java
Se você não possui o Java instalado, pode instalá-lo a partir do repositório ou o Oracle Java 8. oficial. Etapas para instalar o Oracle Java 8 no Ubuntu 14.04
sudo add-apt-repository ppa:webupd8team/java
sudo apt-get update
sudo apt-get install oracle-java8-installer
sudo apt-get install oracle-java8-set-default
Eu recomendo o VietOCR, porque permite OCR arquivos PDF, a conversão em massa também é uma opção.