Pesquisei bastante, mas em nenhum lugar está escrito como remover caracteres não-ASCII do Notepad ++.
Eu preciso saber qual comando escrever em localizar e substituir (com imagem seria ótimo).
Se eu quiser criar uma lista branca e marcar todas as palavras / linhas ASCII para que as linhas não ASCII sejam desmarcadas
Se o arquivo for muito grande e não puder selecionar todas as linhas ASCII e apenas desejar selecionar as linhas que contêm caracteres não ASCII ...
Encoding->Encode in ANSI
. Não foi possível encontrar nada em contrário.No Notepad ++, se você for ao menu Pesquisar → Localizar caracteres no intervalo → Caracteres não ASCII (128-255), poderá percorrer o documento para cada caractere não ASCII.
Marque a opção " Wrap around " se desejar fazer um loop no documento para todos os caracteres não ASCII.
fonte
Além da resposta do ProGM, caso você veja caracteres em caixas como NUL ou ACK e queira se livrar deles, esses são caracteres de controle ASCII (0 a 31), você pode encontrá-los com a seguinte expressão e removê-los:
Para remover todos os caracteres de controle não-ASCII e ASCII, você deve remover todos os caracteres correspondentes a este regex:
fonte
\x00
e\x1F
já são correspondidos na resposta pelo ProGM.mgsub("[^\x1F-\x7F]+", "", text_vector, fixed = FALSE)
Para remover todos os caracteres não ASCII, você pode usar a seguinte substituição:
[^\x00-\x7F]+
Para realçar caracteres, recomendo usar a função Marcar na janela de pesquisa: isso destaca caracteres não ASCII e coloca um marcador nas linhas que contêm um deles
Se você deseja destacar e colocar um marcador nos caracteres ASCII, use a regex
[\x00-\x7F]
para fazer isso.Felicidades
fonte
Para manter novas linhas:
Próximo:
Agora, selecione a opção Substituir estendida e Substitua # por \ n
:) agora, você tem um arquivo ASCII limpo;)
fonte
Outro bom truque é entrar no modo UTF8 no seu editor para poder ver esses personagens engraçados e excluí-los você mesmo.
fonte
Outra maneira ...
Isso é bom se você não se lembra do regex ou não se importa em procurá-lo. Mas o regex mencionado por outros também é uma boa solução.
fonte