Em sua experiência, quais caracteres Unicode, pontos de código, intervalos fora do BMP (Basic Multilingual Plane) são os mais comuns até agora? Estes são os que requerem 4 bytes em UTF-8 ou substitutos em UTF-16.
Eu esperava que a resposta fosse caracteres chineses e japoneses usados em nomes, mas não incluídos nos conjuntos de caracteres multibyte CJK mais difundidos, mas no projeto em que mais trabalho, o Wikcionário em inglês, descobrimos que o alfabeto gótico é muito mais comum até agora.
ATUALIZAR
Eu escrevi algumas ferramentas de software para fazer a varredura de Wikipédias inteiras em busca de caracteres não-BMP e descobri, para minha surpresa, que mesmo na Wikipédia japonesa o alfabeto gótico é o mais comum. Isso também é verdade na Wikipedia chinesa, mas também tinha muitos caracteres chineses sendo usados até 50 ou 70 vezes, incluindo "𨭎", "𠬠" e "𩷶".
fonte
Respostas:
Emoji agora são os personagens não BMP mais comuns, de longe. 😂, também conhecido como U + 1F602 FACE WITH TEARS OF ALEY, é o mais comum no stream público do Twitter. Isso ocorre com mais frequência do que o til!
fonte
Excelente pergunta!
A resposta são as letras matemáticas. Em dezembro passado, fiz uma varredura de todo o corpus do PubMed Open Access e descobri essas figuras para personagens astrais.
O primeiro número nas figuras abaixo é quantas cópias de cada ponto de código fornecido eu encontrei em todo o corpus. Primeiro, porém, para dar uma noção sobre as frequências relativas, aqui estão os dez principais pontos de código trans-ASCII nesse corpus:
E aqui estão os pontos de código trans-BMP, em ordem de frequência decrescente:
Eu realmente gostaria de saber o que eles estavam usando o U + 100002 para fazer. :(
Se isso não aparecer no seu navegador, você deve instalar a fonte Symbola de George Douros . Ele também tem todos os pontos de código Unicode 6.0.0 divertidos.
fonte
Para mim, os símbolos alfanuméricos matemáticos que são usados para composição matemática com fontes OpenType, como Cambria Math.
fonte