Preciso corrigir grandes quantidades de documentos em alemão. Eu preciso lidar com várias centenas de páginas de texto. Eu escrevi uma macro para realizar operações de busca e substituição em massa em erros ortográficos comuns.
Preciso encontrar uma maneira de corrigir o erro de digitação comum em que o caractere SEcond é CApitalizado, embora não deva ser.
Existe uma pesquisa curinga que eu possa usar para substituir todas as ocorrências do segundo caractere com letras maiúsculas e minúsculas em uma palavra pelo equivalente em letras minúsculas?
Esse curinga poderia explicar o fato de que as abreviações não devem ser alteradas?
Suponho que alguém possa fazer algo assim com o RegEx. Eu também estaria disposto a usar uma ferramenta de terceiros ou um editor com esse recurso de macro.
Uma pesquisa na web não foi muito boa, não consigo encontrar a combinação correta de termos de pesquisa.
Exemplo:
- Antes : Este é um TExt com CAlitalização falsa. A empresa ABC não deve ser afetada, nem os EUA. E: TGIF.
- Depois : Este é um texto com falsa capitalização. A empresa ABC não deve ser afetada, nem os EUA. E: TGIF
Desculpe minhas edições frequentes, mas depois de ler e escrever algumas vezes, consegui criar um curinga que encontraria um subconjunto razoavelmente grande de palavras com erros ortográficos.
<[AZ] [AZ] [az] [az]
Encontrará palavras como CApital e SMall, mas não UPS ou HBO (não afiliado). Infelizmente, o campo de substituição não controla o Regex. Ainda estou procurando um método que substitua a palavra com mau comportamento pela grafia correta.
fonte
A ferramenta de terceiros chamada TextPipe (não afiliada) permitirá que eu faça exatamente o que eu preciso. Consegui criar um filtro depois de alguns ajustes. Cuidado, apenas o Windows e nada para os fracos de coração (eu não vi nenhuma GUI tão feia recentemente, e é orientada ao desenvolvedor, portanto, espere uma curva de aprendizado acentuada). É bastante poderoso, no entanto.
Suponho que algo assim também possa ser realizado gratuitamente com um script VBA ou RegEx - do tipo:
Sinta-se livre para discordar e fornecer uma solução melhor ou um freeware.
fonte