O título pede tudo. Tenho diante de mim uma tarefa de entrada de dados que não me deixa muito entusiasmado: 50 a 100 páginas de logs manuscritos de logoff / logon.
O formato dos logs pode ajudar. As páginas são particionadas em linhas e colunas claramente delineadas (13r x 6c com uma linha de cabeçalho extra digitada). Ajudando-me ainda mais é que três colunas são relacionadas a data / hora (data, tempo limite, entrada de tempo). Além disso, os dados em duas das colunas (recurso e nome) são mais ou menos enumerados, de modo que, por exemplo, o nome "Smith" possa aparecer repetidamente na coluna de nome, sempre com a mesma caligrafia. A última coluna, "Notes", é de forma livre, mas se eu pudesse automatizar as 6 colunas anteriores, não me importaria de inserir o Notes manualmente.
Alguma sugestão? (Além de 'começar a digitar'.)
PS Se houver um site SE melhor para perguntar isso, me avise, perguntarei lá.
Respostas:
O tesseract é provavelmente a melhor e mais difundida biblioteca de OCR.
Ele foi testado com caligrafia e não é muito ruim - embora a caligrafia não seja uma coisa fácil de ler. http://arxiv.org/ftp/arxiv/papers/1003/1003.5893.pdf
fonte
Se você tem menos de 10 páginas, o Captricity pode fazer isso de graça.Fora da caixa, não há boas soluções de código aberto para o que você está procurando. As soluções pagas custam muito para licenciar. Isso se baseia em nossa experiência na construção de um serviço de OCR de caligrafia na Captricity . Usamos o tesseract na produção, mas apenas como um voto combinado à inteligência humana (crowdsourcing) para oferecer um alto nível de qualidade.
Espero que ajude!
fonte