Qual é o melhor método para manipulação de texto JPEG?

Eu tenho um gráfico relativamente simples; um diagrama técnico com vários bits de texto por toda parte.

O texto está em outro idioma (tcheco / eslovaco). Foi impresso com clareza suficiente para ser distinguido e interpretado com precisão pelo OCR do Google Tradutor (Android). Enfim, gostaria de substituir o texto pela tradução em inglês.

Nesse caso, não seria difícil apenas cortar / ocultar o texto atual e adicionar todas as novas caixas de texto com ferramentas básicas de edição. Mas seria bom se eu pudesse simplesmente selecionar e editar o texto da mesma maneira que alguns editores de PDF são capazes.

Tentei exportar o JPEG / PNG como PDF e editá-lo com o Libre Office. Mas não foi diferente para criar um documento em branco e inserir a imagem; era tudo apenas um único objeto.

Eu entendo o porquê e não espero mágica. Mas alguém tem uma técnica para isso?

pdf jpeg image-editing ocr text-manipulation tjt263
fonte

Basicamente, você está perguntando se existe um programa de edição de gráficos que faz o OCR para reconhecer elementos de texto em um gráfico e os converte em texto real e editável? Se sim, não há nenhum que eu saiba. Texto não é apenas texto, há fontes, kerning, espaçamento entre linhas e todos os tipos de outras variáveis envolvidas. Parece que seria um recurso muito legal!

Sandwich

@ Sandwich A maioria dos editores de PDF que usei enfrentaram problemas de compatibilidade de fontes em algum momento. Especialmente ao editar documentos de sistemas operacionais estrangeiros. Isso nunca me causou nenhum pesar; Eu sempre consegui converter o texto em uma fonte nativa.

tjt263

PDFs são muito mais "ricos" que JPEG, no entanto. Os PDFs destinam-se a permitir impressão de alta qualidade a partir de um documento portátil. Dessa forma, eles não apenas contêm JPEGs incorporados para imagens, mas também podem armazenar dados vetoriais para gráficos, bem como dados de texto com as diretivas de formatação correspondentes e a própria fonte - tudo oculto no próprio arquivo PDF. É por isso que muitos PDFs têm texto copiável e pesquisável. O OCR é o que devemos recorrer quando não há dados textuais subjacentes - ele tenta descobrir letras de dados puros em pixels.

Sandwich

A maneira mais direta de fazer isso (sem examinar a complexidade do documento) é usar o software DTP para colocar a imagem, bloquear a imagem e adicionar caixas de texto individuais com fundo branco. Você poderá ter um posicionamento muito preciso e pode simplesmente dimensionar a caixa para cobrir o texto antigo. Você pode exportar como PDF ou formato de imagem plana.

O Scribus é um pacote DTP de código aberto gratuito, seguindo as linhas do Quark ou InDesign.

O Word etc. geralmente possui instalações com caixas de texto, mas acho que elas são complicadas em comparação com o software DTP.

Se você limpar a imagem suficientemente bem, tente usar o Inkscape (código-fonte aberto) ou o Illustrator para "Rastrear" ou "Rastrear ao vivo" a imagem, e o texto poderá acabar sendo editável como objetos vetoriais que não são de texto, mas isso é provavelmente será problemático e, mesmo assim, levará mais tempo do que colocar novas caixas de texto.

Yorik
fonte

Qual é o melhor método para manipulação de texto JPEG?

Respostas: