Como transformar fotos de documentos em papel em um documento digitalizado?

44

Meu scanner está quebrado! Eu tenho uma boa câmera, então tirei algumas fotos dos documentos que quero digitalizar ... No entanto, eles parecem fotos de papel, não documentos digitalizados:

  • As imagens não são planas
  • A iluminação não é uniforme (sombras à medida que a página distorce, etc.)
  • Obviamente, o texto não é processado em texto PDF passível de cópia.

Eles simplesmente não são adequados para uso profissional, mas estão próximos.

Estou procurando por alguma coisa (ou método) que possa executar uma ou todas as opções acima, para que eu possa ir de vários arquivos JPG para um único PDF anotado [opcionalmente] da coisa toda, no formato certo (A4 tipicamente).

Alguma sugestão (exceto sair e comprar um novo scanner)?

Oli
fonte
1
No Android, o aplicativo Drive do Google pode processar um pouco e obter um PDF em tamanho A4 a partir de um conjunto de imagens (criando uma nova "digitalização") - aplique preto e branco e um pouco de correção (ambos no aplicativo, enquanto criando) nele e parece principalmente uma digitalização (de baixa qualidade). OCR é um problema mais difícil.
19715 muru
Não conheço nenhum software Ubuntu, mas descartei meu scanner depois de descobrir que existem aplicativos em um telefone celular que geralmente fazem a mesma coisa. Você pode querer olhar para o aplicativo Genius Scan (para Android) ou Scannable (para iPhone). Em seguida, aplique pdfjoinpara costurá-los. Não há OCR.
19415 Jos
A razão pela qual desejo fazer isso por meio de fotos, e não de um aplicativo móvel, é que meu dSLR é [literalmente] mil vezes melhor que a câmera do meu telefone. E se não há nada que faça isso de uma só vez, acho que posso lidar com o OCR. Existem muitos projetos de código aberto que fazem um bom trabalho.
Oli
Talvez eu tenha ressuscitado meu scanner com fita adesiva, torradas e geléia, de modo que a urgência está desligada, mas acho que esse ainda é um problema interessante.
Oli
Oli , pesquisei alguns exemplos no Stackexchange, como este tex.stackexchange.com/questions/94523/simulate-a-scanned-paper e este stackoverflow.com/questions/8955425/… apenas não tenho certeza se a sua pergunta está correta;)
JoKeR

Respostas:

46

Existem várias maneiras de fazer isso. Embora todas as minhas maneiras sugeridas tenham um problema, elas não serão realmente nítidas. Uma imagem mais ou menos boa ainda seria necessária.

Uma maneira fácil é experimentar o software ScanTailor

sudo apt-get install scantailor 

Leva você a 6 etapas para otimizar suas fotos. Na última etapa, você pode selecionar a opção "Equalizar iluminação", para obter uma aparência limpa e agradável!


Pessoalmente, geralmente apenas uso o GIMP . Mas você precisa de algumas habilidades básicas para alcançar seu objetivo.

sudo apt-get install gimp 
  1. cortar a imagem da maneira desejada
  2. use a opção Colors-> Curvespara manipular a saída de cores da maneira que desejar ...

Ajuste as curvas de cores para obter uma saída limpa e agradável.


Outro pequeno programa interessante é o gscan2pdf , onde você também pode carregar fotos e exportá-las como PDF. Existe até um link para o GIMP, para que você possa melhorar a foto com as etapas descritas acima .

sudo apt-get install gscan2pdf 
wittich
fonte
1
Nunca vi o ScanTailor antes. Parece quase perfeito, exceto que não consigo descobrir como salvá-lo como algo que quero manter (por exemplo, PDF). Alguma ideia?
Oli
PS: bem-vindo ao Ask Ubuntu e Stack Exchange!
Oli
1
@Oli, a saída é salva na pasta que você selecionou no início. Como eu vejo agora, ele salva como tiff. Então você gostaria de executar um convert file.tiff file.pdfno console.
Wittich
2
Oh sim, meu mal. Estou usando várias páginas, então vou convertê-las para png find -maxdepth 1 -name '*.tif' -exec convert {} {}.png \;e depois juntá-las pdfjoin --outfile output.pdf --a4paper --rotateoversize false *.png. Apenas pensando em voz alta para quando eu esquecer como fazer tudo isso :) Obrigado novamente.
Oli
2
O ScanTailor foi uma descoberta !!! Normalmente, eu faria tudo isso no Gimp ou em um aplicativo proprietário como o gimp, mas o alfaiate de digitalização tem apenas os recursos necessários para converter minhas imagens em imagens escaneadas, removendo todo o ruído :) Muito mais fácil do que todas as curvas que costumava usar mova-se em Gimp. Muito obrigado !!!
quer
20

Para gerar uma cópia imprimível ou PDF a partir da foto da câmera de um documento, temos que converter manualmente bastante para obter uma imagem semelhante à saída de um scanner. A maioria dessas conversões pode ser feita com o Gimp.

  1. Tente fazer o melhor possível da imagem original :

    • Escolha uma luz brilhante para reduzir o ruído de pixel, mas para evitar reflexos, sangramentos ou dispersão irregular de luz, não use flash, a menos que você tenha um equipamento de flash de estúdio.
    • Se possível, escolha iluminar a fonte de pelo menos dois lados (canto superior direito ou esquerdo)
    • Tire uma foto a uma distância maior usando uma teleobjetiva em vez de uma lente grande angular.
    • Use um tripé para evitar agitar os artefatos.
    • Aponte a câmera ortogonal para a superfície da fonte.
    • Inclua espaço na fronteira com a fonte original.
  2. Considere a dessaturação em escala de cinza para melhor contraste e remoção de artefatos de pixel colorido.

    insira a descrição da imagem aqui

  3. Ajuste o brilho e o contraste para tornar o fundo cinza presumivelmente branco, e as letras pretas ficarão pretas.

    • Isso pode ser feito rapidamente com a ferramenta Gimp Colors> Levels , na qual podemos arrastar o ponto preto (esquerda) e o ponto branco (direita) ou escolher os pontos preto / branco com o seletor de cores.

    insira a descrição da imagem aqui

    • Sombras nos cantos dobrados não podem ser removidas sem remover também partes do texto (consulte 6.)
  4. Remover distorção da almofada?

    Dependendo da qualidade da lente fotográfica e do nível de zoom que usamos, podemos ter alguns artefatos de almofada que levam à curvatura das bordas externas do documento. Existem plugins para remover esses artefatos, mas podemos achar mais rápido escolher um nível de zoom da câmera onde eles são mínimos. Após o corte (5.), podemos nem notá-los mais. Portanto, a remoção de artefatos de almofada pode ser necessária apenas no caso de nossa imagem de origem ter muitas linhas retas nas partes externas.

  5. Gire e corte ou perspectiva transforme a imagem, se necessário.

    Ao contrário de um scanner, nossa câmera pode não obter a fonte paralelamente às bordas da imagem. A ferramenta Gimp Rotate ou Perspective fornecerá um feedback visual para poder rotacionar ou ajustar a perspectiva de uma imagem até que as linhas de texto estejam paralelas à página.

    insira a descrição da imagem aqui
    Ferramenta de perspectiva no lado direito

Agora podemos selecionar a fonte do documento com a ferramenta de seleção de retângulo para cortar a imagem dentro do documento.

  1. Remova sombras indesejadas de artefatos de dobras, dobras ou vinhetas da lente da câmera.

    • É difícil remover essas sombras e não há um plug-in ou filtro automático para nos ajudar.
    • Em teoria, poderíamos sobrepor um preenchimento de gradiente a essas regiões, mas isso pode não levar aos resultados esperados; portanto, pode não valer o tempo que precisaríamos.
    • O método mais rápido, portanto, é simplesmente usar a ferramenta borracha para remover todas as sombras feias fora do texto (que devemos poupar).

      insira a descrição da imagem aqui apagado -> insira a descrição da imagem aqui

  2. Escala de imagem?

    Dependendo da resolução da câmera, escalar a imagem para um tamanho de imagem de scanner aumentará apenas o tamanho do arquivo, mas não terá benefícios na qualidade da imagem. Escalar para baixo removerá detalhes. Portanto, não devemos dimensionar a imagem, mas ajustar o tamanho da impressão na caixa de diálogo da impressora (ou abaixo em 8.).

  3. Gerar PDF

    Podemos importar nossa imagem agora restaurada manualmente para o LibreOffice ( Inserir> Mídia ) para

    • Definir suas dimensões
    • Exportar como PDF
    • Imprimir (para mim, imprimir no LibreOffice leva ao resultado desejado com muito mais frequência do que qualquer outra coisa).
Takkat
fonte
Muito obrigado pelas etapas detalhadas. Eles me ajudaram a resolver um problema de longa data de conversão de fotos em documentos digitalizados. Estou totalmente impressionado com o poder da transformação de perspectiva.
Chethan S.
Resposta incrível! A ferramenta de perspectiva foi bastante confusa para mim no começo, então aqui está um ótimo guia. Eu adicionei 4 linhas de guia e depois drogue os cantos da imagem usando a ferramenta de perspectiva até que a imagem fique quadrada com todas as 4 diretrizes.
Gabriel Staples
(24 horas depois). Opa! Eu esqueci o link. Aqui está o guia sobre o qual eu estava falando: lifewire.com/… .
Gabriel Staples
1

Se você já possui a imagem do documento, basta baixar o aplicativo CamScanner no seu telefone / tablet. Isso permitirá que você importe a imagem e, em seguida, faça um corte sugerido, além de achatar e ajustar cores / contraste, etc. Leva apenas um minuto.

Dan
fonte