OCR em lote para muitos arquivos PDF (ainda não OCR)? [fechadas]

9

Uso o Google Desktop Search (estou no Vista) e nem todos os meus arquivos PDF são reconhecidos na minha pasta de arquivamento. É normal que " arquivos PDF que contêm imagens digitalizadas " não sejam indexados ( http://desktop.google.com/support/bin/answer.py?hl=pt_BR&answer=90651 )

Gostaria de registrar muitos dos meus arquivos PDF que ainda não foram registrados. Meu objetivo: atribuir uma pasta ao programa e ele pesquisar sozinho nas subpastas os arquivos PDF que precisam ser convertidos em arquivos PDF-OCR.

Nota: No passado, se um arquivo PDF era protegido por senha, eu a removia com outra ferramenta em lote (paga): verypdf.com "pwdremover" http://www.verypdf.com/pwdremover/

Alguma idéia (não muito cara)?

Eu já tentei: o Finereader 6 pro no xp na época, mas não havia processador em lote incluído ... Paperfile paperfile.net que usa o Tesseract http://code.google.com/p/tesseract-ocr/ . Mas o OCR é apenas PDF para texto, não PDF para PDF! Há também outro projeto http://code.google.com/p/ocropus/

Desde já, obrigado ;)

Erb
fonte
Um ano depois, atualize: Olá, aparentemente o software "ABBYY Hot Folder & Scheduling", incluído apenas no ABBYY FineReader (> v. 9.0), Edições de licenças corporativas e de sites, pode ajudar (não tentei: 600 $!)! Também Tesseract deve estar trabalhando em janelas agora (sem sucesso para mim agora; ()!
Erb
Além disso, o ABBYY FineReader (> v. 9.0) Pro Edition tem uma tarefa de automação: você escolhe a pasta principal + suas subpastas e faz o trabalho. Mas o principal problema é que ele abre todos os pdf de uma vez (!!), depois os lê (= ocr) e salva um arquivo pdf exclusivo! Então, se você tem centenas de pdf, o maldito não está funcionando para mim! ; (Que pena, que pesadelo
!;

Respostas:

6

tl; dr? Comece com o Nuance PowerPDF Advanced.

Avaliei o software de OCR em dezembro de 2014, preparando um grande projeto - OCR em milhões de páginas em inglês, feitas em lotes. Se você estiver disposto a gastar algumas centenas de dólares, terá muitas opções; versões de teste podem ajudá-lo se você precisar converter apenas algumas centenas de páginas.

Muitos pacotes de software desejam carregar todos os arquivos de entrada, fazer OCR e unir a bagunça em uma única saída. IMHO isso está errado, eu não tenho idéia de quem iria querer isso. Eu estava procurando por um lote verdadeiro: um arquivo de saída para cada arquivo de entrada, operação autônoma, não pare por nada, me dê um relatório detalhado no final. Alerta de spoiler: não encontrei isso.

Pacotes em ordem alfabética a seguir. Os preços mostrados abaixo são listados, mas os descontos são abundantes. Tome meus comentários sobre precisão com um grão de sal; suas entradas não serão iguais às minhas entradas, portanto sua milhagem certamente variará.

ABBYY Finereader 12 Corporate: US $ 400. O recurso de lote é chamado de "Gerenciador de tarefas" e está no menu Ferramentas. Ele processará arquivos de uma pasta, incluindo subpastas; felizmente criará um arquivo de saída separado para cada arquivo de entrada. Não parece capaz de preservar a hierarquia da pasta de entrada; todos os arquivos de saída foram para a mesma pasta de saída. A precisão foi alta nos meus testes, mas ainda é o menor dos pacotes que listei aqui.

Adobe Acrobat XI: US $ 300. O recurso de lote é chamado "Reconhecimento de texto / em vários arquivos", que pode ser encontrado clicando em Ferramentas (terceira barra de ferramentas, lado superior direito da tela principal). Processa subpastas, uma saída para cada entrada. Interrompe e exibe um prompt se encontrar um arquivo protegido por senha. Não preserva a árvore do diretório de entrada por padrão; pode fazer isso escrevendo a saída na mesma pasta que a entrada. A precisão foi muito boa nos meus testes.

Nuance OmniPage Ultimate (também conhecido como v19): US $ 500. O recurso de lote é chamado "DocuDirect" e é um programa separado que acompanha o pacote. Ele processará pastas e subpastas; se você selecionar os recursos corretamente, preservará a árvore do diretório de entrada na área de saída. Uma saída para cada entrada. Pára e exige uma senha para um arquivo protegido. Parece tirar vantagem excelente dos processadores com vários núcleos para executar tarefas em paralelo. A precisão foi excelente . Mas a estabilidade do processador em lote é baixa; um documento confuso o interrompe, para nunca mais se recuperar, descarrilando um lote com facilidade.

Nuance PowerPDF Advanced v1.1 (sucessor do OmniPage Ultimate): US $ 150. O recurso de lote é chamado de "Conversor de lote" e é acessível a partir do programa principal na guia Processamento avançado. Ele processará pastas e subpastas, preservando a estrutura de entrada na saída. Uma saída para cada entrada. Usará vários núcleos, mas não de forma agressiva; o que isso significa é que não consegui saturar um host com vários núcleos. A precisão é excludente , boa ou melhor que o OmniPage. Arquivos incorretos ou difusos não causaram a interrupção. O processador em lote grava ( choque ) um arquivo de log de texto sem formatação no diretório de saída.

ReadIris Corporate 14: US $ 600. O recurso de lote é chamado pelo item "OCR em lote", que é revelado ao clicar no botão "De arquivos" na tela principal. Ele processará pastas e subpastas, uma saída para cada entrada e, por padrão, a estrutura do diretório de saída corresponde à estrutura do diretório de entrada. Pára e exige entrada do usuário em um arquivo inválido; processa sem queixas adicionais todos os documentos protegidos aparentemente ocrizando a imagem. A precisão foi muito boa, a par do Acrobat.

Na minha máquina desktop (apenas dual core), com as entradas escolhidas, cada pacote requer pelo menos 3 segundos para processar uma página; alguns levaram mais. Pode ser capaz de reduzir isso em uma máquina com mais núcleos.

Há muitas dicas, não se esqueça de planejar: PDFs inválidos (alguns pacotes são interrompidos), PDFs protegidos por senha (alguns pacotes são interrompidos, outros são convertidos de qualquer maneira!) E páginas giradas (paisagem em vez de retrato). Se você deseja que o lote seja executado até a conclusão, você deve preparar a área de entrada para esses pacotes com muito, muito cuidado. Procure no recurso de impressão em PDF do pacote GhostScript uma maneira de remover a proteção dos PDFs.

A execução de grandes lotes pode levar à exaustão da memória e a problemas de interrupção, mesmo que não deva (provavelmente - vazamentos de memória). Se você está fazendo algum tipo de automação, um grande problema é descobrir, após o fato, o que realmente aconteceu - quais documentos não puderam ser processados, quais falharam durante o processamento etc. É como o software de desktop que as pessoas nunca ouviram falar de algo chamado "arquivo de log".

Finalmente, obter suporte, mesmo como cliente pagador, é bastante difícil para esses pacotes de mercado de massa. Por exemplo, reclamei com um representante de suporte ao cliente estimado sobre um pacote (que permanecerá sem nome) pendurado por algumas entradas grandes. Eu esperei 36 horas antes de desistir :). Sugeriram docemente limitar o tamanho do lote a 300 documentos. Isso foi completamente inaceitável para mim, mas ei, esse ticket de suporte foi fechado rapidamente, certo? E isso é tudo o que importa, certo? Suspiro.

HTH

chrisinmtown
fonte
Olá Chrislott, Obrigado pela sua resposta detalhada. ;) Eu apreciei. ;) Mais de 4 anos depois, e incrivelmente ainda, nenhum software é perfeito para simplesmente fazer um OCR automático em uma pasta e liberar um arquivo de log com erros após a conclusão! ... Talvez eu tente entrar em contato com a Nuance.
Erb
Por enquanto, uso uma versão antiga do Acrobat pro e vários freewares. É um processo longo. Eu posso detalhar se necessário! Mas o trabalho é feito da melhor maneira possível! ;)
Erb
3

O Adobe Acrobat processará uma pasta de PDFs e, como a maioria dos produtos da Adobe, há uma avaliação de 30 dias .
A função está localizada no menu 'Documento':

Documento> Regocnition de texto OCR> Reconhecer texto em vários arquivos usando OCR

de onde você pode adicionar sua pasta.

No Acrobat X, a função está disponível da seguinte maneira:

Ferramentas> Reconhecer texto> Em vários arquivos
peles
fonte
Obrigado "pelms". ;) Vou tentar se o tempo permitir. O que eu gostei no meu teste anterior do finereader.abbyy.com é que ele podia reconhecer vários idiomas diferentes. ;)
Erb
1

Na verdade, o pdfsandwich foi atualizado no ano passado e não foi nada difícil de instalar no Linux Mint. Os resultados são inferiores ao Adobe Acrobat, mas é a única solução viável que encontrei no Linux até agora.

Brian Z
fonte
11
Muito interessante! Eu não sabia disso. Estou adicionando um link em en.wikisource.org/wiki/… e o testarei em algum momento no futuro. (Na verdade, existem muitas outras soluções, mas não vou começar aqui!)
Nemo
0

Experimente o WatchOCR . É um pacote de software de código aberto que converte imagens digitalizadas em PDFs pesquisáveis ​​em texto. É gratuito e de código aberto e possui uma ótima interface da Web para administração remota. Com a configuração correta, ele é usado para criar um serviço em lote de pdf / ocr para uma rede inteira via compartilhamentos smb. Infelizmente, é apenas linux. Mas você pode instalá-lo em um servidor antigo e, em seguida, toda a sua organização pode usá-lo.

Se você deseja fazer o mesmo online sem instalar nada, tente o PDFCubed.com

rlangner
fonte
A página inicial do WatchOCR está ocupada, apesar de arquivada
Tobias Kienzler