Como extrair texto de um PDF que não foi criado com um índice? É tudo texto, mas não consigo pesquisar ou selecionar nada. Estou executando o Kubuntu e o Okular não possui esse
O reconhecimento óptico de caracteres (OCR) é o processo de conversão de imagens de texto em texto que pode ser manipulado por processadores de texto, etc.
Hoje, recebi um PDF de nosso fornecedor e ele continha várias páginas impressas e digitalizadas com assinaturas etc. Abri no Acrobat Reader DC. Mas, para minha surpresa, o texto das imagens digitalizadas evidentemente poderia ser selecionado e copiado como um texto. Veja a captura de...
Isso foi discutido há um ano aqui: OCR em lote para muitos arquivos PDF (ainda não OCR)? Existe alguma maneira de agrupar PDFs de OCR que ainda não foram OCR? Acho que esse é o estado atual das coisas que lidam com dois problemas: PDFs de OCR em lote janelas Acrobat - este é o mecanismo ocr...
Eu tenho um PDF de um livro digitalizado. Eu estou procurando um software livre que irá executar o OCR e, em seguida, fornecer uma opção para salvá-lo como um PDF ou documento novamente. Existe um?
Fechadas. Esta questão está fora de tópico . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela esteja no tópico do Superusuário. Fechado há 4 anos . Muitas vezes me deparei com bitmaps com nada além...
O Evernote faz OCR nas imagens que você salva nele. Existe uma maneira de obter o equivalente em texto completo para uma imagem no Evernote ou o OCR é apenas para
Estou pesquisando no Google há algum tempo, mas não consigo encontrar uma resposta para minha pergunta. Tenho camadas indesejadas de OCR em um documento que digitalizei recentemente com o Adobe Acrobat. Ele não foi OCR corretamente e quero editar algumas informações, mas o OCR está fazendo com que...
Eu estava na casa dos meus avós no fim de semana passado. Minha avó pegou esse livro gigante (~ 1400 páginas) da história de sua família que remonta a 1630, aproximadamente. Nerd gigante que sou, pensei que seria bom ter todas as informações armazenadas em um banco de dados e disponíveis na web. Eu...
Este PDF foi produzido por Abbyy Finereader 10: http://ebooks.zeitr.org/from_abbyy.pdf Você pode copiar e colar a primeira frase e obter este (muito bom) resultado de texto: Der »Bund Deutscher Gymnastik-Schulleiter« quarta-feira, 20 de novembro de 1955. Após algum processamento com o...
Fechadas. Esta questão está fora de tópico . No momento, não está aceitando respostas. Deseja melhorar esta pergunta? Atualize a pergunta para que ela esteja no tópico do Superusuário. Fechado há 5 anos . Uso o Google Desktop Search (estou no Vista) e...
Eu usei o SimpleOCR , que tem uma boa interface gráfica para corrigir erros. Infelizmente, cometemos muitos erros! (e sofre outros bugs e limitações) Por outro lado, o Tesseract é mais preciso, mas não possui GUI. Minha pergunta é: existe um programa gratuito de OCR para Windows que tenha uma...
Como você inicia uma digitalização e reconhecimento de caracteres usando o Microsoft Office Word 2010 (Beta)? Não consigo encontrar uma opção para digitalizar o documento no meu scanner diretamente para um documento do Word 2010. Verifiquei as configurações de instalação do Office 2010 (Beta) e...
O processamento do OCR leva tempo. O uso de vários núcleos da CPU aceleraria o processamento. O Acrobat 10 não era um aplicativo multithread . E o Acrobat 11? Por padrão, o 11 usa OCR usando vários núcleos de CPU (se disponível)? Caso contrário, existem soluções alternativas, por exemplo, scripts,...
Eu tenho um grande número de documentos do Microsoft Word para criar, após uma falha de disco e backups irregulares, destruiu os originais. Temos uma quantidade razoável dos originais restantes e, em vez de recriá-los manualmente, talvez eu queira digitalizar, usar algo para capturar a imagem e...
Eu quero extrair caracteres Unicode de arquivos .jpg e .png. Eu tento fazer isso usando o seguinte comando: tesseract 1.png output.txt Esse comando funciona para caracteres ingleses, mas quando eu tento para Unicode como Hindi, Marathi ou Devanagari Script, ele produz a saída errada....
Eu tenho um documento PDF grande que consiste em páginas digitalizadas de um livro. Desejo executar a função de reconhecimento de texto do Adobe Acrobat 9, mas sou apresentado a esse menu quando o faço. Estou confuso com as opções no menu destacado. Qual opção produzirá o texto da mais alta...
Eu tenho um gráfico relativamente simples; um diagrama técnico com vários bits de texto por toda parte. O texto está em outro idioma (tcheco / eslovaco). Foi impresso com clareza suficiente para ser distinguido e interpretado com precisão pelo OCR do Google Tradutor (Android). Enfim, gostaria de...
Você conhece algum software de detecção de texto, de imagens ou vídeos, disponível como demonstração ou demonstração em vídeo? Por favor me dê alguns links. Edit: melhor com algum papel e é realização. Edit2: eu quero implementar o algoritmo de detecção de texto de vídeo ou imagens. Eu vejo...
Tenho diferentes tipos de faturas legais de cobrança. Quero digitalizá-los em planilhas do Excel. Como seus layouts são diferentes e existem muitos, não consigo encontrar uma maneira de lidar com eles. Alguém pode me fornecer uma solução