Solução de OCR para faturas legais de cobrança [fechado]

1

Tenho diferentes tipos de faturas legais de cobrança. Quero digitalizá-los em planilhas do Excel. Como seus layouts são diferentes e existem muitos, não consigo encontrar uma maneira de lidar com eles. Alguém pode me fornecer uma solução prática?

Willams
fonte
Eu recomendaria a omnipage, mas eles provavelmente fecharão isso como um tópico fora do assunto, então, procure em alternativeto.net se há alertas para omnipage, se isso não for um bom ajuste.
MDT Guy
Obrigado, eu tentei a omnipage e Abbyy, parece que eles fornecem apenas os produtos. Eles convertem a imagem em texto, mas não podem fazer alguns cálculos e extrações. Existe alguma solução sobre o processamento dessa coisa? Muito obrigado mesmo assim.
precisa
Ah, você está procurando um ECM com OCR? Não é apenas um OCR? Não tenho certeza se o Docuware é o que você precisa, pode ser um exagero, mas confira. Nós o usamos para nossas faturas.
MDT Guy

Respostas:

2

Não existe uma solução boa e com preços razoáveis ​​que eu conheça :(

Você pode tentar verificar o Nuance OmniPage ou Abby FlexiCapture (existem edições para desktop até as versões corporativas de US $ 100 mil). Algum tempo atrás, eu havia comparado a qualidade dos SDKs / OCR entre eles. Não há muita diferença, apesar de eu achar que Abbyy era um pouquinho melhor (Nuance caiu algumas vezes, Abbyy não).

O OmniPage e o FlexiCapture (FineReader) possuem edições para desktop que pretendem converter PDFs em arquivos editáveis ​​do Excel. Pelo que aprendi ao mexer nas versões de avaliação gratuita, elas criam arquivos excel editáveis, mas apenas para fontes limpas de alta qualidade. Ambos também oferecem funcionalidade de processamento em lote.

Também achei o scanstore.com um recurso incrível:

http://www.scanstore.com/Scanning_Software/Forms_Processing/Invoice_Processing/

Se você procura código-fonte aberto - o melhor 'mecanismo' é o tesseract. Você precisará criar os bits de captura de formulários completos em torno dele. Eu pensei um pouco sobre isso - e você precisa:

  1. Use 'códigos de barras' ou registre os tipos de fatura
  2. Para cada tipo - descubra quais partes da fatura são tabelas
  3. Corte a área relevante - e envie-a para tesserat / abbyy / nuance
  4. Volte algo que possa ser analisado em uma tabela
  5. Aplicar modelagem de linguagem (surpreendentemente Abbyy, a Nuance faz um trabalho terrível aqui)

Ah, e para sua informação, existem muitas empresas de serviços 'BPO' que têm pessoas reais para fazer o trabalho de entrada de dados. Não é tão caro quanto você imagina.

Grynn
fonte
Sim, ambas as empresas de OCR realmente precisam de um alto custo, e sua opinião sobre o processamento da fatura é muito útil. Mas isso não significa que eu deveria contratar um engenheiro, certo? Acho que devo encontrar uma empresa que faça essas coisas por mim. Obrigado por suas respostas.
amigos estão dizendo sobre willams
1

Aqui estão alguns softwares de OCR gratuitos: CuneiForm, GOCR, Ocrad, OCRopus, Tesseract. Mas o resultado não é tão bom. Mas você pode tentar o FineReader, ExperVision, OmniPage, o resultado será melhor. No entanto, com base na minha experiência, você não pode confiar na solução tecnológica pura. Se você deseja controlar o custo do seu projeto a um preço razoável. Integrar a tecnologia OCR e os recursos humanos é uma boa escolha. Tanto quanto eu sei, a Expervision pode fornecer serviços personalizados de tecnologia OCR e BPO, você pode verificar a Web deles. Expervision

Lincoln1985
fonte