Extrair texto OCR do Evernote

13

O Evernote faz OCR nas imagens que você salva nele. Existe uma maneira de obter o equivalente em texto completo para uma imagem no Evernote ou o OCR é apenas para pesquisa?

Leigh Riffel
fonte

Respostas:

15

A API do Evernote possui funcionalidade para obter texto e retângulo onde esse texto está presente dentro da imagem. Consulte http://evernote.com/about/developer/api/evernote-api.htm , consulte "Formato XML do Evernote Recognition Index XML" e as funções para recuperá-lo. O problema é que eles não fazem OCR tradicional ... seu algoritmo de OCR pode produzir palavras diferentes para uma "palavra" única na imagem. Tudo o que eles usam é pesquisa, então isso é bom para eles, mas não é bom para usá-lo como um mecanismo de reconhecimento. (Embora eles tenham peso para cada palavra alternativa, talvez você possa usá-la)

Peter Štibraný
fonte
11

Além disso, o Evernote aparentemente não decide que uma imagem em particular é equivalente a exatamente uma palavra - por exemplo, o Evernote não determina que uma imagem em particular seja "pista" e não seja "devida". Em vez disso, ele rastreará os dois, e uma pesquisa por qualquer um retornaria a mesma imagem. Portanto, não há como obter um equivalente em texto completo porque o Evernote não está decidindo qual é o texto completo, apenas o que poderia ser.

Mike Dunham
fonte
5

O evernote paga uma quantia decente ao criador do ocr-stuff OU pagou uma quantia decente para colocar algo funcionando em conjunto. portanto, duvido muito que eles deixem você obter o texto extraído (+ posicionamento na imagem).

(poderia ser um modelo de negócios, para digitalizar imagens de outras pessoas e fornecer uma boa ocr :))

então, a resposta é: não.

akira
fonte
3
Isso não é verdade. Existe uma API para obter exatamente essas informações. Veja minha resposta.
Peter Štibraný
2

Não tenho certeza de quanta sofisticação você precisa, mas como também uso o Adobe Acrobat, clico com o botão direito do mouse no anexo do Evernote para abrir com o Acrobat.

Em seguida, no Acrobat, selecione "Documento | Reconhecimento de texto OCR" e salve o documento como texto sem formatação.

Isso funciona bem para mim, pois eu só preciso de uma conversão OCR ocasional.

Bruce Kessel
fonte
1

Se você conseguir tirar todas as imagens do Evernote, poderá fazer o OCR com o Google Docs.

Você pode fazer upload de uma pasta de imagens para o Google Docs e convertê-las em Documentos, que conterão a imagem e o texto OCR.

Você pode fazer o download em lote de todos esses documentos como texto sem formatação, o que removerá a imagem.

Se você nomear todas as imagens do Evernote com um hash (por exemplo md5), será fácil vincular arquivos de texto sem formatação baixados do Google Docs à imagem original.

Max Masnick
fonte
0

Estou no Windows e uso o Adobe Acrobat Pro e o Word, e faço o seguinte:

  1. se o arquivo não for salvo como JPG, clique no ícone do globo ocular no canto superior esquerdo da imagem no Evernote para abri-lo no Photo Viewer e clique em Arquivo> "Fazer uma cópia" para salvar como JPG
  2. navegue até o arquivo de imagem no Explorer
  3. clique com o botão direito do mouse e selecione Converter em Adobe PDF (o arquivo será aberto no Acrobat)
  4. clique em Arquivo> Salvar como e selecione Rich Text Format no menu suspenso "Salvar como tipo" para salvar como um arquivo rich text (leva um minuto para processar o arquivo)
  5. navegue até o arquivo RTF no Explorer e clique duas vezes para abrir no Word
  6. edite conforme necessário
Pete Nikolai
fonte
Este parece ser um conselho sobre como extrair texto de um determinado arquivo de imagem, não uma imagem no Evernote. Você pode esclarecer como isso responde à pergunta original e de uma maneira que as respostas anteriores e aceitas não?
Janelas