O que STX, SOH e GS significam na saída do Notepad ++?

20

Ao revisar a fonte MIME de um email (presumivelmente contendo caracteres internacionais), vejo coisas assim no Notepad ++

insira a descrição da imagem aqui

Entendo que CRLFé o avanço da linha de retorno de carro, mas e os outros? O que faz SOH, GSe STXmédia?

Mike B
fonte

Respostas:

19

O Notepad ++ usa esses símbolos para representar caracteres de controle ou caracteres não imprimíveis.

Personagem de controle - Wikipedia

Um caractere de controle ou um caracter não imprimível é um ponto de código (um número) em um conjunto de caracteres que não representa um símbolo escrito.

C0 e C1 códigos de controle - Wikipedia

STX - Início do texto - Primeiro caractere do texto da mensagem e pode ser usado para terminar o cabeçalho da mensagem.

SOH - Início do cabeçalho - Primeiro caractere de um cabeçalho da mensagem.

GS - Separador de grupo - pode ser usado como delimitador para marcar campos de estruturas de dados. Se usado para níveis hierárquicos, US é o nível mais baixo (dividindo itens de dados em texto sem formatação), enquanto RS, GS e FS são de nível crescente para dividir grupos compostos por itens do nível abaixo dele.

Steven
fonte
Hmm ... Estou confuso sobre por que os cabeçalhos de um email podem conter um caractere não imprimível. Seria preciso interpretar essa descrição anterior como "um caractere de controle ou um caracter não imprimível é um ponto de código (um número) em um conjunto de caracteres que não representa um símbolo ASCII escrito".
Mike B
Não estou familiarizado com as especificações dos cabeçalhos de email nem por que eles podem conter caracteres não imprimíveis. No entanto, o Notepad ++ usa seus próprios símbolos (como você mostrou) para exibir esses caracteres de controle.
21715 Steven
Todos os caracteres não imprimíveis são exibidos no cabeçalho X-Example, entre aspas. Esse cabeçalho não faz parte de nenhum padrão de email (consulte stackoverflow.com/questions/14469110/… ). Ele foi definido pelo cliente que criou o email ou talvez por um dos transportes ao longo do caminho. De qualquer forma, no que diz respeito ao processamento do email, é efetivamente um comentário e pode ser qualquer coisa. É como se alguém desenhasse um pequeno coração em um envelope - não faz parte do padrão postal e não afeta a entrega.
Randy Orrison
... bem, é claro, desde que na verdade não quebre as coisas. Um cabeçalho X com seqüências de caracteres UNICODE muito longas pode disparar um bug de buffer overflow em um programa de transporte, e um coração escrito sobre o endereço pode confundir o carteiro. Mas dentro da razão, é apenas ignorado.
Randy Orrison
6

SOH é Start Of Header

STX é Start of teXt

GS é Group Seperator

td512
fonte