Texto físico para texto digital

9

Deixe-me primeiro prefixar esta pergunta, não tenho idéia de qual site StackExchange seria mais apropriado para essa pergunta, mas achei que o LifeHacks poderia funcionar ...

Em 1998, o lado de minha mãe na família teve uma grande reunião de família (minha bisavó teve dez filhos, então foi realmente uma grande reunião). Um dos meus tios distantes escreveu uma espécie de livro sobre a história da família para esta reunião e minha mãe me deu o livro para ler. Eu não conseguia acreditar em quão grande é e em quantas pesquisas foram incluídas no livro. Gostaria de descobrir uma maneira de colocar o livro inteiro em um site que eu vou criar, onde eu possa compartilhá-lo com todos da nossa família e, finalmente, preservar a história por mais tempo do que este livro frágil.

Na esperança de não precisar digitar palavra por palavra, este livro inteiro de 300 páginas existe uma maneira de eu apenas digitalizar as páginas e obtê-las em texto digital? Obviamente, eu poderia apenas tirar fotos e criar o site usando as imagens, mas acho que seria mais benéfico tê-lo como texto real, porque ele pode aparecer nas pesquisas do Google melhor quando alguém pesquisa o nome de um membro da família ou algo assim. Além disso, se alguém da família fizer um projeto de pesquisa em nossa família, poderá copiar parte do texto e referenciá-lo com mais facilidade.

Alguém sabe da melhor maneira que eu posso colocar esse livro antigo da família em texto digital?

Primeira página do livro

Livro indicando espessura

Kyle Bridenstine
fonte

Respostas:

14

Use um telefone Android e o recurso " Google Lens " . Adicionado recentemente ao aplicativo de fotos e à revisão de fotos da câmera scrwwn.

O OCR via Google Lens é incrível e preciso, além de qualquer software de OCR que eu já usei.

Abaixo estão algumas capturas de tela que descrevem o procedimento usando um Nokia 3 barato (100 USD) , o melhor celular que tive o prazer de usar desde que meu amado Nexus 4 desistiu do fantasma.

Detalharei uma amostra de varredura de OCR de um livro de etimologias grega, impresso em 1976, que não ouso separar para a varredura, que parece ter densidade de caracteres e tipo de letra semelhantes.

Tirei essa foto original em condições de iluminação abaixo do ideal, usando todas as configurações automáticas da câmera do telefone, não foram usadas técnicas especiais de fotografia ou acessórios para melhorar o resultado. Você pode dizer que é apenas uma foto de telefone página do livro . (Apenas verifique se o texto está focado, nenhum OCR decifrará o texto fora de foco embaçado)

insira a descrição da imagem aqui

Clique no ícone da lente do Google, disponível na visualização depois de tirar a foto ou na própria foto usando o aplicativo de fotos do Google

insira a descrição da imagem aqui

Aqui está -Skynet- ^M^M^M^M^M^MQuero dizer, o Google Lens faz sua varredura mágica (os pontos são um pouco assustadores, mas eles tiveram que fazer algo para que você soubesse que a inteligência artificial do Googley está fazendo suas coisas, eu acho)

insira a descrição da imagem aqui

Depois que a imagem for digitalizada, você encontrará as áreas de texto que o Google Lens encontrou na imagem claramente descritas e o texto já extraído para a metade inferior da tela. se você deseja apenas algumas áreas e não outras, basta tocar na sua seleção para ativá-las / desativá-las.

Se você tocar no texto extraído, ele será colocado na área de transferência para copiar / colar itens em qualquer lugar do telefone.

insira a descrição da imagem aqui

Depois, basta colar o texto em um documento do Google Docs . Lá, você pode: - corrigir qualquer erro ali ou no seu PC, - compartilhar o documento com o conteúdo do seu coração, - publicá-lo como uma página da web com atualizações ao vivo de suas edições ou - exportar para - texto sem formatação, - documento do word , - documento de escritório aberto, - livro eletrônico epub compatível com kindle com texto em reflexão, ou - bom e velho PDF não DRMd

Pode-se argumentar que esse é provavelmente o caminho mais curto para a publicação, com as mais amplas opções de saída possíveis.

Você pode fazer tudo isso em um único dispositivo (telefone Android com os aplicativos apropriados instalados) e fazê-lo rapidamente, com uma alta taxa de precisão, basicamente de graça.

Aqui está o fragmento colado do Google Docs
insira a descrição da imagem aqui

Aqui está o compartilhamento de URLs do Google Docs, fique à vontade para comentar. Você também pode ter alguém para ajudá-lo a editar o documento remotamente e simultaneamente.

https://docs.google.com/document/d/1aizUDOHerSraU3fIw6lHLabmLSNsQ7PMXOl1IHHE0RU/edit?usp=drivesdk

Finalmente, aqui está um site do Google Sites publicado usando o documento mencionado como fonte vinculada

https://sites.google.com/h-lo.me/ocrsample

É https, habilitado para desktop e dispositivos móveis e, dependendo do gosto, geralmente não é doloroso. Nada mal por 15 minutos de trabalho total e sem codificação.


Ainda há um refinamento: criar parágrafos apropriados no documento do Google, pois o Google Lens insere um retorno rígido após cada linha de texto extraído, o que torna cada linha seu próprio parágrafo e isso se tornará um problema se você quiser usar Recursos do Google Docs, como o índice ou quando você exporta o documento para um livro eletrônico compatível com kindle e-pub (bagunça o texto em andamento)

Você pode simplesmente ingressar em todas as linhas, quando apropriado, pressionando a tecla Backspace a cada início de linha, ou isso pode ser automatizado com um script.

Então, estou escrevendo um complemento de script de aplicativos que publicarei em breve para automatizar esse processo. Eu vou deixar você saber aqui quando estiver pronto.

hlecuanda
fonte
Grande detalhe. Eu gosto desta solução gratuita. Obrigado!
Kyle Bridenstine
O prazer é meu! Você pode até ter tudo o que precisa já! :)
hlecuanda
Para um livro grosso, essa é uma abordagem que exige muito trabalho: você precisa virar manualmente cada página e depois fotografá-la.
Hobbes
6

Você pode fazer isso em etapas. Comece colocando tudo online como varreduras de página e atualizando sempre que possível. A ligação de pente de plástico cerlox ™ facilita a desmontagem e a colocação na ligação.

Como a impressão parece ser do tipo serif normal do mesmo tamanho, as digitalizações podem ser digitalizadas usando o software de reconhecimento óptico de caracteres. O OCR pode fornecer um arquivo de texto de rascunho que você pode revisar e publicar no site para sua forma final.

Ao mesmo tempo, você pode arrumar as fotos e outros materiais pictóricos.

Você pode fazer isso quando o tempo / recursos estiverem disponíveis para o projeto.

Stan
fonte
Semelhante à resposta anterior, mas não tão detalhada.
Trajan Espelien
@TrajanEspelien Qual resposta anterior? Verifique o registro de data e hora. A resposta foi a primeira, dois dias antes da apresentação da hiecuanda. :)
Stan
Sim, mas não tem tantos detalhes quanto a outra resposta, e é por isso que aceitei a outra sobre isso. Não é o primeiro a chegar, primeiro servidor ... é a melhor resposta.
Kyle Bridenstine
@KyleBridenstine No Kidding! Também votei em hiecuanda. Foi uma ótima resposta. A propósito, e se você não tivesse um telefone Android ou não pudesse acessar o Glass? Eu dei uma resposta genérica para a pergunta. :)
Stan
11
@KyleBridenstine Obrigado pelas amáveis ​​palavras. Nós concordamos. Eu acho que você fez a coisa certa, esperando. A primeira resposta NÃO é a melhor (a menos que seja por algum motivo. Afinal, existem prazos.) Enviei o link para sua pergunta e a grande resposta de hiecuanda a um colega que precisa fazer a mesma coisa com uma enorme pilha de registros escolares de Brasil!
Stan
2

Algumas boas respostas aqui para abordar você mesmo.

Gostaria de acrescentar minha experiência de pagar alguém para fazer isso por você.

Eu usei o Digitize My Books no Reino Unido (eu sou do Reino Unido).

Fiquei muito satisfeito com os resultados: cada livro é retornado como um PDF com texto pesquisável (e copiável). Uma técnica padrão de PDF é usada pela qual a imagem original de cada página é mantida, mas com uma sobreposição de texto, para que você possa realçar o texto original na página. Valor muito bom. Como alguém do exterior do Reino Unido, você ainda pode enviar os livros.

Eles também oferecem uma opção para que o livro esteja no formato de documento de texto editável, a um custo adicional, mas muito razoável.

Se você não exigir que o original seja devolvido, a opção mais barata seria escolher a digitalização destrutiva. É aqui que as páginas são tiradas individualmente do livro e digitalizadas. Por padrão, o livro original não é devolvido, embora eu acredite que você possa solicitá-lo, possivelmente a um custo adicional (por exemplo, postagem de devolução), mas as páginas ficarão soltas, tendo sido removidas para serem digitalizadas individualmente. A digitalização destrutiva é a opção que escolhi para todos os meus livros e não exigi que os originais fossem devolvidos.

Eles também oferecem cópias não destrutivas, se você precisar do original, mas o custo é mais alto. Eles também aceitam suas próprias digitalizações digitais se você já tiver digitalizado um livro - eles podem transformar isso em documentos PDF ou Word com capacidade de pesquisa e cópia.

Dê uma olhada no site deles. Eu realmente acho que essa é a melhor opção: gastar dinheiro para economizar tempo, em vez de gastar tempo para economizar dinheiro.

Não trabalho na Digitize My Books, nem tenho interesse financeiro neles (acionista ou não).

Originalmente, eu mesmo comecei a "digitalizar" nos livros, fotografando usando uma câmera DSLR (fotografar é mais rápido que a digitalização de mesa), com cada página aberta com um clipe da área de transferência e blu-tak. Mas eu achei isso bastante trabalhoso.

Se você ainda estiver interessado em fazê-lo, o ScanTailor é um aplicativo Windows de código aberto que irá formatar, dividir páginas / pares de páginas duplas conforme digitalizadas em páginas individuais, endireitá-las e "desmembrá-las". Para que as páginas resultantes apareçam planas e retas, conforme desejado, no entanto, não ocorre OCR: os resultados ainda são imagens de bitmap. Mas, pelo menos, é de alguma maneira automatizar em lote a distorção das páginas, principalmente as cópias não destrutivas, onde é difícil organizar as páginas para ficarem completamente planas para livros grandes.

Atualizada

Adicionadas mais informações sobre as opções de digitalização oferecidas por um serviço. Mais informações sobre o ScanTailor. Correções gramaticais.

therobyouknow
fonte
1

A maneira mais rápida de fazer isso é entrar em contato com seu parente e verificar se eles ainda têm os arquivos originais que eles usaram para criar esse livro. Na foto da primeira página, eu diria que foi feita em um computador. Converta de {insira pacote de processador de texto realmente antigo aqui} para um formato atual e pronto.

A segunda maneira mais rápida de transformar uma pilha de material impresso em um documento digital:

  1. Remova a ligação.
  2. Corte a borda esquerda das páginas para se livrar dos orifícios. Os furos interferem no alimentador de documentos.
  3. Percorra o livro e desdobre todos os vincos e outros danos que irão interferir no alimentador de documentos.
  4. Encontre qualquer impressora duplex razoavelmente moderna que tenha um alimentador de documentos e um recurso de digitalização. Digitalize para PDF.

Em seguida, use qualquer pacote de OCR para transformar as páginas digitalizadas em um arquivo do Word. Eu uso os recursos de OCR na versão completa do Adobe Acrobat para esse fim, mas existem muitos mecanismos de OCR disponíveis.

Hobbes
fonte
0

Você pode querer experimentar um serviço muito barato: preserve-your-memories.info. Ao fazer isso sozinho, uso o scanner para digitalizar para o OmniPage, um programa de OCR e, em seguida, salvar como um arquivo pdf totalmente pesquisável. Como a sua publicação é encadernada com um pente de plástico, é fácil desmontar para digitalizar páginas individuais e depois reconectar. Tirar fotos como descrito nas sugestões acima também é muito viável - uma boa entre muitas abordagens.

Alan
fonte