Existem bons programas de OCR de caligrafia de código aberto (bem, gratuitos)?

16

O título pede tudo. Tenho diante de mim uma tarefa de entrada de dados que não me deixa muito entusiasmado: 50 a 100 páginas de logs manuscritos de logoff / logon.

O formato dos logs pode ajudar. As páginas são particionadas em linhas e colunas claramente delineadas (13r x 6c com uma linha de cabeçalho extra digitada). Ajudando-me ainda mais é que três colunas são relacionadas a data / hora (data, tempo limite, entrada de tempo). Além disso, os dados em duas das colunas (recurso e nome) são mais ou menos enumerados, de modo que, por exemplo, o nome "Smith" possa aparecer repetidamente na coluna de nome, sempre com a mesma caligrafia. A última coluna, "Notes", é de forma livre, mas se eu pudesse automatizar as 6 colunas anteriores, não me importaria de inserir o Notes manualmente.

Alguma sugestão? (Além de 'começar a digitar'.)

PS Se houver um site SE melhor para perguntar isso, me avise, perguntarei lá.

psoft
fonte
1
Você pode postar uma varredura de amostra do log?
Martin Thompson
1
Não se preocupe com o Captricity - eles solicitam seu email e enviam um "link email" sem um link.
E é isso que acontece quando você se confunde com os termos "código aberto" e "gratuito" ... ... de que uma empresa está tentando obter vantagem no mercado, dando a ideia de que "código aberto" é igual a "ruim" ».
Joan

Respostas:

6

O tesseract é provavelmente a melhor e mais difundida biblioteca de OCR.

Ele foi testado com caligrafia e não é muito ruim - embora a caligrafia não seja uma coisa fácil de ler. http://arxiv.org/ftp/arxiv/papers/1003/1003.5893.pdf

Martin Beckett
fonte
O Tesseract certamente é uma boa opção se você estiver procurando por código livre / aberto. Não é 100%, mas obtém resultados bastante precisos na maioria das vezes.
Capitão Kenpachi
4

Se você tem menos de 10 páginas, o Captricity pode fazer isso de graça.

Fora da caixa, não há boas soluções de código aberto para o que você está procurando. As soluções pagas custam muito para licenciar. Isso se baseia em nossa experiência na construção de um serviço de OCR de caligrafia na Captricity . Usamos o tesseract na produção, mas apenas como um voto combinado à inteligência humana (crowdsourcing) para oferecer um alto nível de qualidade.

Espero que ajude!

Kuang
fonte