Eu estava na casa dos meus avós no fim de semana passado. Minha avó pegou esse livro gigante (~ 1400 páginas) da história de sua família que remonta a 1630, aproximadamente. Nerd gigante que sou, pensei que seria bom ter todas as informações armazenadas em um banco de dados e disponíveis na web. Eu posso lidar com toda a programação da Web e expressões regulares e o que não, mas o que eu não sei é a melhor maneira de obter o texto do livro para o computador.
Eu sei que algum tipo de OCR será necessário, pelas poucas pesquisas que fiz, parece que minhas opções são:
- tire uma foto de cada página com uma câmera e processe as fotos com o software OCR
- use um scanner para digitalizar cada página e processe com o software OCR
- use algum tipo de dispositivo portátil, como este .
Alguém tem alguma idéia sobre a melhor maneira de resolver esse problema? Não quero destruir o livro, porque, tanto quanto sei, não pode ser substituído. Esta é provavelmente a única vez que digitalizarei um livro grande, então não acho que queira gastar mais de US $ 250 em qualquer tipo de dispositivo. Não me importo com algum esforço manual aqui (sei que isso provavelmente levará meses), mas gostaria de encontrar o método mais eficiente possível.
Nota sobre o livro: ele tem apenas 20 anos e está em muito boa forma. É monocromático e as páginas não começaram a amarelar. Já que é tão grande, eu me preocupo com possíveis sombras quando o texto fica perto da encadernação.
Respostas:
Me deparei com isso no Lifehacker há algum tempo, e esse tem sido um dos meus principais projetos de bricolage desde então.
Substitua o iPhone por qualquer câmera ou imagem e você terá uma pilha de excelentes JPEGs de alta resolução prontos para OCR com qualquer software, mesmo (urgência!) MS Office ...;)
Barato. Eficaz. FAÇA VOCÊ MESMO. Você não pode superar uma ideia como essa.
EDIT: Os comentários levantaram alguns pontos sobre sombras, enrolamentos de páginas, etc. É muito fácil de resolver para qualquer pessoa que tenha literalmente copiado os textos da biblioteca.
Adicione várias fontes de luz para iluminar o livro e elimine as sombras.
incline o livro a 90 graus para que as páginas não se enrolem em direção às encadernações no meio. Também preserva a ligação.
Vou ver se posso dar um exemplo e montar um.
EDIT 2: amostra carregada de como você deve segurar o livro e também observe a fonte de luz da esquerda.
fonte
Pelo que sei, a ABBYY faz o melhor software de OCR, mas não é gratuito. Você deve tentar usar uma versão de avaliação do ABBYY FineReader , talvez isso o ajude.
fonte
Você precisará capturar a imagem de alguma forma. Existem vários serviços para fazer isso por você. Você também precisará de alguém familiarizado com o conteúdo do texto para revisar, pois o OCR ainda não é perfeito. Especialmente com qualquer coisa escrita à mão.
Outros estão discutindo sua pergunta aqui: http://ask.metafilter.com/92506/scan-my-books
Algumas empresas farão isso por você: http://www.scandexsystems.com/BookScanning2.html http://www.kirtas.com/index.php?option=com_content&view=article&id=13&Itemid=48 http: // www. ristech.ca/product.html
Algum software livre: http://download.cnet.com/Image-To-PDF-OCR-Converter-PDF-E-Book-Maker/3000-6675_4-10392924.html
fonte
Para um projeto grande e importante para você e sua família como este, um DIY Book Scanner pode ser o caminho a seguir, alguns projetos até transformadores de páginas esportivas - http://www.diybookscanner.org/ Este não suporta nativamente o OCR , mas grava 600 páginas por hora e você pode executá-lo através do OCR após o fato http://hackaday.com/2011/07/18/diy-book-scanner-processes-600-pageshour/
fonte
Você pode querer ver se uma universidade perto de você tem um scanner de livros inteiro e depois pedir / subornar um aluno para colocar seu livro nele.
fonte
Eu recomendaria um scanner de mesa equipado para digitalização de livros ou um scanner de livros inteiro, como mencionado por Chris.
Se possível, compile suas imagens em um formato TIFF, como é o padrão do setor quando se trata de sistemas de gerenciamento de documentos.
Para fazer o OCR, eu recomendaria o tesseract OCR , pois é a estrutura que o Google expôs para o projeto de livros.
fonte
Embora pareça tentador automatizar o processo, convém investir mais tempo e trabalho, pois esse livro em particular é uma questão pessoal. O OCR fará o volume, mas você terá que revisar página por página e comparar com o original. lembre-se de que os erros do autor fazem parte do acordo, não os corrija (crie notas de rodapé se você se sentir tão inclinado). não se apresse, a digitalização de livros é um trabalho burro, mas o rigor vale a pena e você terá uma cópia digital fina da crônica de sua família. boa sorte com seu esforço :)
fonte
No trabalho, usamos um scanner de livro Plustek Optibook 3600, que custa cerca de US $ 250 .
É basicamente um scanner de mesa plano padrão, mas com a placa de vidro indo diretamente para a borda do scanner, para que a página do livro possa ser colocada na placa. Isso elimina a sombra da coluna vertebral e evita danos aos livros.
fonte