Eu uso o GNU SED há alguns anos. Às vezes, isso me deixa meio confuso, mas faz um bom trabalho ... para conjuntos de caracteres de byte único!
De vez em quando, noto referências ao GNU SED que reconhece Unicode, mas o mais próximo que eu vi disso é seu modo "binário". E binário não é Unicode.
O GSED pode processar um arquivo de texto Unicode na resolução do CodePoint, incluindo e especialmente \ r \ n (Windows) ... e, se puder, espera UTF-8, UTF-16 ou o quê? e como o SED detecta a codificação?
10
Respostas:
Eu não sei muito sobre o sed, mas depois de pesquisar bastante no Google parece ter suporte para uma variedade de páginas de código através da variável de ambiente LANG. Eu acredito que UTF-8 é de fato o padrão na ausência de LANG. Não sei como a porta do Windows está configurada. Eu tenho uma forte suspeita de que o sed não executa nenhum processamento de detecção no fluxo de entrada.
Fontes: /programming/67410/why-does-sed-fail-with-international-characters-and-how-to-fix http://omgili.com/mailinglist/cygwin/cygwin/com /20100520123926GA1432onderneming10xs4allnl.html
Você também pode tentar caracteres de escape, conforme mencionado aqui: http://forums.whirlpool.net.au/forum-replies-archive.cfm/841095.html Isso parece muito complicado.
fonte