Eu recebi um documento de imagem digitalizada do banco e quero convertê-lo em documento de texto normal com imagens no Ubuntu.
Existe alguma ferramenta para isso?
Eu recebi um documento de imagem digitalizada do banco e quero convertê-lo em documento de texto normal com imagens no Ubuntu.
Existe alguma ferramenta para isso?
Existem vários leitores de OCR para Linux que podem converter de imagem em texto. Veja as seguintes opções:
Todos os itens acima, exceto ocropus, estão presentes no repositório Ubuntu em um pacote com o mesmo nome.
Leitores diferentes suportam diferentes formatos de imagem; portanto, você pode estar limitado em suas opções pelo formato do arquivo em que está o documento. Como alternativa, você pode usar a ferramenta de conversão do ImageMagick para alterar o formato, se desejar usar um leitor de OCR específico.
Adaptado da minha resposta aqui .
Você precisa instalar o "tesseract-ocr" em sua máquina Linux primeiro.
sudo apt-get install tesseract-ocr
Você pode fazer isso manualmente a partir da CLI ou eu criei o código PHP para o mesmo, você pode usá-lo se quiser.
Nota: Para executar este código, o comando exec deve ser ativado no php.ini
<?php
//IMAGE TO TXT Conversion
$input_file = $_REQUEST['input_file'];
$out = explode(".",$input_file);
$output_file = $out[0]."_".$out[1];
$output_file_name = $output_file.".txt";
echo "<br />----IMAGE To TXT conversion Started-----</br />";
echo exec('tesseract '.$input_file.' '.$output_file);
echo "<br />----TXT conversion Done-----</br />";
echo "<br /><b>Please Check----->".$output_file.".txt</b><br />";
echo "Click <a target='_blank' href='".$output_file_name."'>Here </a>to view it<br />";
?>
coloque esse código na pasta raiz e acesse-o no navegador,
por exemplo :
http://yourserver.com?input_file=1.png
Nota: o arquivo 1.png deve estar presente no seu diretório atual.
Não tenho direitos para fazer upload de imagem, usei esta imagem para referência, http://plone.org/documentation/kb-old/copy_of_ocr-in-plone-using-tesseract-ocr/phototest.gif/image_preview