Converter imagem em texto

8

Eu recebi um documento de imagem digitalizada do banco e quero convertê-lo em documento de texto normal com imagens no Ubuntu.

Existe alguma ferramenta para isso?

Joe
fonte

Respostas:

15

Existem vários leitores de OCR para Linux que podem converter de imagem em texto. Veja as seguintes opções:

Todos os itens acima, exceto ocropus, estão presentes no repositório Ubuntu em um pacote com o mesmo nome.

Leitores diferentes suportam diferentes formatos de imagem; portanto, você pode estar limitado em suas opções pelo formato do arquivo em que está o documento. Como alternativa, você pode usar a ferramenta de conversão do ImageMagick para alterar o formato, se desejar usar um leitor de OCR específico.

Adaptado da minha resposta aqui .

Comunidade
fonte
0

Você precisa instalar o "tesseract-ocr" em sua máquina Linux primeiro.

sudo apt-get install tesseract-ocr

Você pode fazer isso manualmente a partir da CLI ou eu criei o código PHP para o mesmo, você pode usá-lo se quiser.

Nota: Para executar este código, o comando exec deve ser ativado no php.ini

<?php
//IMAGE TO TXT Conversion
    $input_file = $_REQUEST['input_file'];
    $out = explode(".",$input_file);

    $output_file = $out[0]."_".$out[1];
    $output_file_name  =    $output_file.".txt";

    echo "<br />----IMAGE To TXT conversion Started-----</br />";
    echo  exec('tesseract '.$input_file.' '.$output_file);
    echo "<br />----TXT conversion Done-----</br />";

    echo "<br /><b>Please Check----->".$output_file.".txt</b><br />";
    echo "Click <a target='_blank' href='".$output_file_name."'>Here </a>to view it<br />"; 
?>

coloque esse código na pasta raiz e acesse-o no navegador,

por exemplo :

http://yourserver.com?input_file=1.png

Nota: o arquivo 1.png deve estar presente no seu diretório atual.

Não tenho direitos para fazer upload de imagem, usei esta imagem para referência, http://plone.org/documentation/kb-old/copy_of_ocr-in-plone-using-tesseract-ocr/phototest.gif/image_preview

Pragnesh Karia
fonte