Existem bons programas de OCR de caligrafia de código aberto (bem, gratuitos)?

16

O título pede tudo. Tenho diante de mim uma tarefa de entrada de dados que não me deixa muito entusiasmado: 50 a 100 páginas de logs manuscritos de logoff / logon.

O formato dos logs pode ajudar. As páginas são particionadas em linhas e colunas claramente delineadas (13r x 6c com uma linha de cabeçalho extra digitada). Ajudando-me ainda mais é que três colunas são relacionadas a data / hora (data, tempo limite, entrada de tempo). Além disso, os dados em duas das colunas (recurso e nome) são mais ou menos enumerados, de modo que, por exemplo, o nome "Smith" possa aparecer repetidamente na coluna de nome, sempre com a mesma caligrafia. A última coluna, "Notes", é de forma livre, mas se eu pudesse automatizar as 6 colunas anteriores, não me importaria de inserir o Notes manualmente.

Alguma sugestão? (Além de 'começar a digitar'.)

PS Se houver um site SE melhor para perguntar isso, me avise, perguntarei lá.

image-processing computer-vision psoft
fonte

1

Você pode postar uma varredura de amostra do log?

Martin Thompson

1

Não se preocupe com o Captricity - eles solicitam seu email e enviam um "link email" sem um link.

E é isso que acontece quando você se confunde com os termos "código aberto" e "gratuito" ... ... de que uma empresa está tentando obter vantagem no mercado, dando a ideia de que "código aberto" é igual a "ruim" ».

Joan

6

O tesseract é provavelmente a melhor e mais difundida biblioteca de OCR.

Ele foi testado com caligrafia e não é muito ruim - embora a caligrafia não seja uma coisa fácil de ler. http://arxiv.org/ftp/arxiv/papers/1003/1003.5893.pdf

Martin Beckett
fonte

O Tesseract certamente é uma boa opção se você estiver procurando por código livre / aberto. Não é 100%, mas obtém resultados bastante precisos na maioria das vezes.

Capitão Kenpachi

4

~~Se você tem menos de 10 páginas, o Captricity pode fazer isso de graça.~~

Fora da caixa, não há boas soluções de código aberto para o que você está procurando. As soluções pagas custam muito para licenciar. Isso se baseia em nossa experiência na construção de um serviço de OCR de caligrafia na Captricity . Usamos o tesseract na produção, mas apenas como um voto combinado à inteligência humana (crowdsourcing) para oferecer um alto nível de qualidade.

Espero que ajude!

Kuang
fonte

Existem bons programas de OCR de caligrafia de código aberto (bem, gratuitos)?

Respostas: