O Evernote faz OCR nas imagens que você salva nele. Existe uma maneira de obter o equivalente em texto completo para uma imagem no Evernote ou o OCR é apenas para pesquisa?
O Evernote faz OCR nas imagens que você salva nele. Existe uma maneira de obter o equivalente em texto completo para uma imagem no Evernote ou o OCR é apenas para pesquisa?
A API do Evernote possui funcionalidade para obter texto e retângulo onde esse texto está presente dentro da imagem. Consulte http://evernote.com/about/developer/api/evernote-api.htm , consulte "Formato XML do Evernote Recognition Index XML" e as funções para recuperá-lo. O problema é que eles não fazem OCR tradicional ... seu algoritmo de OCR pode produzir palavras diferentes para uma "palavra" única na imagem. Tudo o que eles usam é pesquisa, então isso é bom para eles, mas não é bom para usá-lo como um mecanismo de reconhecimento. (Embora eles tenham peso para cada palavra alternativa, talvez você possa usá-la)
Além disso, o Evernote aparentemente não decide que uma imagem em particular é equivalente a exatamente uma palavra - por exemplo, o Evernote não determina que uma imagem em particular seja "pista" e não seja "devida". Em vez disso, ele rastreará os dois, e uma pesquisa por qualquer um retornaria a mesma imagem. Portanto, não há como obter um equivalente em texto completo porque o Evernote não está decidindo qual é o texto completo, apenas o que poderia ser.
O evernote paga uma quantia decente ao criador do ocr-stuff OU pagou uma quantia decente para colocar algo funcionando em conjunto. portanto, duvido muito que eles deixem você obter o texto extraído (+ posicionamento na imagem).
(poderia ser um modelo de negócios, para digitalizar imagens de outras pessoas e fornecer uma boa ocr :))
então, a resposta é: não.
Não tenho certeza de quanta sofisticação você precisa, mas como também uso o Adobe Acrobat, clico com o botão direito do mouse no anexo do Evernote para abrir com o Acrobat.
Em seguida, no Acrobat, selecione "Documento | Reconhecimento de texto OCR" e salve o documento como texto sem formatação.
Isso funciona bem para mim, pois eu só preciso de uma conversão OCR ocasional.
fonte
Se você conseguir tirar todas as imagens do Evernote, poderá fazer o OCR com o Google Docs.
Você pode fazer upload de uma pasta de imagens para o Google Docs e convertê-las em Documentos, que conterão a imagem e o texto OCR.
Você pode fazer o download em lote de todos esses documentos como texto sem formatação, o que removerá a imagem.
Se você nomear todas as imagens do Evernote com um hash (por exemplo
md5
), será fácil vincular arquivos de texto sem formatação baixados do Google Docs à imagem original.fonte
Estou no Windows e uso o Adobe Acrobat Pro e o Word, e faço o seguinte:
fonte