Uso o Google Desktop Search (estou no Vista) e nem todos os meus arquivos PDF são reconhecidos na minha pasta de arquivamento. É normal que " arquivos PDF que contêm imagens digitalizadas " não sejam indexados ( http://desktop.google.com/support/bin/answer.py?hl=pt_BR&answer=90651 )
Gostaria de registrar muitos dos meus arquivos PDF que ainda não foram registrados. Meu objetivo: atribuir uma pasta ao programa e ele pesquisar sozinho nas subpastas os arquivos PDF que precisam ser convertidos em arquivos PDF-OCR.
Nota: No passado, se um arquivo PDF era protegido por senha, eu a removia com outra ferramenta em lote (paga): verypdf.com "pwdremover" http://www.verypdf.com/pwdremover/
Alguma idéia (não muito cara)?
Eu já tentei: o Finereader 6 pro no xp na época, mas não havia processador em lote incluído ... Paperfile paperfile.net que usa o Tesseract http://code.google.com/p/tesseract-ocr/ . Mas o OCR é apenas PDF para texto, não PDF para PDF! Há também outro projeto http://code.google.com/p/ocropus/
Desde já, obrigado ;)
fonte
Respostas:
tl; dr? Comece com o Nuance PowerPDF Advanced.
Avaliei o software de OCR em dezembro de 2014, preparando um grande projeto - OCR em milhões de páginas em inglês, feitas em lotes. Se você estiver disposto a gastar algumas centenas de dólares, terá muitas opções; versões de teste podem ajudá-lo se você precisar converter apenas algumas centenas de páginas.
Muitos pacotes de software desejam carregar todos os arquivos de entrada, fazer OCR e unir a bagunça em uma única saída. IMHO isso está errado, eu não tenho idéia de quem iria querer isso. Eu estava procurando por um lote verdadeiro: um arquivo de saída para cada arquivo de entrada, operação autônoma, não pare por nada, me dê um relatório detalhado no final. Alerta de spoiler: não encontrei isso.
Pacotes em ordem alfabética a seguir. Os preços mostrados abaixo são listados, mas os descontos são abundantes. Tome meus comentários sobre precisão com um grão de sal; suas entradas não serão iguais às minhas entradas, portanto sua milhagem certamente variará.
ABBYY Finereader 12 Corporate: US $ 400. O recurso de lote é chamado de "Gerenciador de tarefas" e está no menu Ferramentas. Ele processará arquivos de uma pasta, incluindo subpastas; felizmente criará um arquivo de saída separado para cada arquivo de entrada. Não parece capaz de preservar a hierarquia da pasta de entrada; todos os arquivos de saída foram para a mesma pasta de saída. A precisão foi alta nos meus testes, mas ainda é o menor dos pacotes que listei aqui.
Adobe Acrobat XI: US $ 300. O recurso de lote é chamado "Reconhecimento de texto / em vários arquivos", que pode ser encontrado clicando em Ferramentas (terceira barra de ferramentas, lado superior direito da tela principal). Processa subpastas, uma saída para cada entrada. Interrompe e exibe um prompt se encontrar um arquivo protegido por senha. Não preserva a árvore do diretório de entrada por padrão; pode fazer isso escrevendo a saída na mesma pasta que a entrada. A precisão foi muito boa nos meus testes.
Nuance OmniPage Ultimate (também conhecido como v19): US $ 500. O recurso de lote é chamado "DocuDirect" e é um programa separado que acompanha o pacote. Ele processará pastas e subpastas; se você selecionar os recursos corretamente, preservará a árvore do diretório de entrada na área de saída. Uma saída para cada entrada. Pára e exige uma senha para um arquivo protegido. Parece tirar vantagem excelente dos processadores com vários núcleos para executar tarefas em paralelo. A precisão foi excelente . Mas a estabilidade do processador em lote é baixa; um documento confuso o interrompe, para nunca mais se recuperar, descarrilando um lote com facilidade.
Nuance PowerPDF Advanced v1.1 (sucessor do OmniPage Ultimate): US $ 150. O recurso de lote é chamado de "Conversor de lote" e é acessível a partir do programa principal na guia Processamento avançado. Ele processará pastas e subpastas, preservando a estrutura de entrada na saída. Uma saída para cada entrada. Usará vários núcleos, mas não de forma agressiva; o que isso significa é que não consegui saturar um host com vários núcleos. A precisão é excludente , boa ou melhor que o OmniPage. Arquivos incorretos ou difusos não causaram a interrupção. O processador em lote grava ( choque ) um arquivo de log de texto sem formatação no diretório de saída.
ReadIris Corporate 14: US $ 600. O recurso de lote é chamado pelo item "OCR em lote", que é revelado ao clicar no botão "De arquivos" na tela principal. Ele processará pastas e subpastas, uma saída para cada entrada e, por padrão, a estrutura do diretório de saída corresponde à estrutura do diretório de entrada. Pára e exige entrada do usuário em um arquivo inválido; processa sem queixas adicionais todos os documentos protegidos aparentemente ocrizando a imagem. A precisão foi muito boa, a par do Acrobat.
Na minha máquina desktop (apenas dual core), com as entradas escolhidas, cada pacote requer pelo menos 3 segundos para processar uma página; alguns levaram mais. Pode ser capaz de reduzir isso em uma máquina com mais núcleos.
Há muitas dicas, não se esqueça de planejar: PDFs inválidos (alguns pacotes são interrompidos), PDFs protegidos por senha (alguns pacotes são interrompidos, outros são convertidos de qualquer maneira!) E páginas giradas (paisagem em vez de retrato). Se você deseja que o lote seja executado até a conclusão, você deve preparar a área de entrada para esses pacotes com muito, muito cuidado. Procure no recurso de impressão em PDF do pacote GhostScript uma maneira de remover a proteção dos PDFs.
A execução de grandes lotes pode levar à exaustão da memória e a problemas de interrupção, mesmo que não deva (provavelmente - vazamentos de memória). Se você está fazendo algum tipo de automação, um grande problema é descobrir, após o fato, o que realmente aconteceu - quais documentos não puderam ser processados, quais falharam durante o processamento etc. É como o software de desktop que as pessoas nunca ouviram falar de algo chamado "arquivo de log".
Finalmente, obter suporte, mesmo como cliente pagador, é bastante difícil para esses pacotes de mercado de massa. Por exemplo, reclamei com um representante de suporte ao cliente estimado sobre um pacote (que permanecerá sem nome) pendurado por algumas entradas grandes. Eu esperei 36 horas antes de desistir :). Sugeriram docemente limitar o tamanho do lote a 300 documentos. Isso foi completamente inaceitável para mim, mas ei, esse ticket de suporte foi fechado rapidamente, certo? E isso é tudo o que importa, certo? Suspiro.
HTH
fonte
O Adobe Acrobat processará uma pasta de PDFs e, como a maioria dos produtos da Adobe, há uma avaliação de 30 dias .
A função está localizada no menu 'Documento':
de onde você pode adicionar sua pasta.
No Acrobat X, a função está disponível da seguinte maneira:
fonte
Na verdade, o pdfsandwich foi atualizado no ano passado e não foi nada difícil de instalar no Linux Mint. Os resultados são inferiores ao Adobe Acrobat, mas é a única solução viável que encontrei no Linux até agora.
fonte
Experimente o WatchOCR . É um pacote de software de código aberto que converte imagens digitalizadas em PDFs pesquisáveis em texto. É gratuito e de código aberto e possui uma ótima interface da Web para administração remota. Com a configuração correta, ele é usado para criar um serviço em lote de pdf / ocr para uma rede inteira via compartilhamentos smb. Infelizmente, é apenas linux. Mas você pode instalá-lo em um servidor antigo e, em seguida, toda a sua organização pode usá-lo.
Se você deseja fazer o mesmo online sem instalar nada, tente o PDFCubed.com
fonte