Em muitas fontes, você encontrará praticamente nenhuma diferença entre usar os caracteres Unicode para algarismos romanos e apenas compor com letras latinas comuns. Por exemplo, o seguinte mostra Louis VII
(acima) e Louis Ⅶ
(abaixo, usando pontos de código para números romanos) renderizados com o FreeSans:
Além de uma pequena diferença no espaçamento, que provavelmente não era intencional, a saída é idêntica.
Aqui está o mesmo texto renderizado com o DejaVu Sans:
Enquanto os caracteres ainda parecem idênticos, há uma diferença considerável no espaçamento. Pode ser uma questão de gosto se o último é preferível para números romanos, mas certamente não seria uma boa escolha de kerning para maiúsculas regulares.
O Linux Libertine vai um passo além:
Aqui, os algarismos romanos são um pouco menores que as letras maiúsculas, correspondendo, assim, aos algarismos arábicos da fonte. Mais importante, eles estão conectados, reproduzindo um recurso frequentemente encontrado em algarismos romanos desenhados à mão.
Agora, alguns ainda podem argumentar que não há melhorias no exposto acima ou que não valem o esforço. Então, aqui está um caso em que a não utilização dos caracteres Unicode produzirá resultados horríveis:
(Observe que o tamanho pequeno dos numerais reflete alguma composição histórica real.) Algo semelhante pode ocorrer para fontes de script ou caligráficas.
Sem pontos Unicode específicos para números romanos, dissolver o último problema só seria possível com:
Usando um recurso OpenType complexo (ou semelhante) que tenta detectar se uma sequência de letras maiúsculas é um numeral romano. Isso inevitavelmente causará problemas com palavras que também seriam um número romano válido.
Usando um simples recurso OpenType, que precisa ser ativado manualmente para cada numeral romano.
Usando a área de uso privado do Unicode. É provável que ocorram problemas de compatibilidade, mesmo ao alternar entre duas fontes que suportam números romanos.
Do ponto de vista do Unicode, a enorme diferença semântica entre letras latinas maiúsculas e números romanos já deveria ser suficiente para uma codificação separada de números romanos.
TL; DR O consórcio Unicode recomenda o uso da letra latina sempre que possível e não do número, que foi incluído para compatibilidade com a tipografia do Leste Asiático.
A história completa: (com justificativa da afirmação acima)
A menos que você esteja fazendo alguma tipografia do Leste Asiático, o uso de caracteres numéricos romanos (não arcaicos) do unicode (U + 2160 - U + 217F) é um hack.
Esses caracteres foram incluídos para compatibilidade com os padrões pré-Unicode do Leste Asiático. Esses caracteres permanecem verticais onde o texto do leste asiático é digitado de cima para baixo, enquanto, geralmente, o texto em caracteres latinos (por exemplo, nomes) é escrito de lado nesse contexto.
Para citar a última versão do padrão Unicode (v 7.0, cap. 22, p. 20) :
Portanto, em teoria, a distinção entre algarismos romanos e letra é uma questão de rich text, como itálico, alteração de fonte ou ligaduras opcionais. Dito isto, como mostra a @Wrzlprmft, algumas fontes a usam para evitar uma alteração de fonte para cada número romano, mantendo uma boa tipografia.
A existência de um caractere para XII e não para XIII implica que existem várias codificações diferentes no mesmo número, o que leva a dificuldades na pesquisa de texto: se você escrever sobre Luís XII e Luís XIII, provavelmente escreverá XIII como X + I + I + I, mas você escreverá XII como um único personagem? Ou como X + I + I para ter uma exibição consistente com XIII? Não existe uma boa resposta para essa pergunta ao usar os caracteres numéricos romanos, e é por isso que o consórcio Unicode recomenda o uso de letras latinas quando possível, e não os números.
Edit: adicionada a asserção TL; DR no início
fonte
De uma perspectiva de como parece, pode não haver muita diferença. Portanto, se você publicar apenas material impresso, não haverá diferença, exceto em algumas fontes, como Wrzlprmft aponta em sua excelente resposta.
Semântica é importante
A diferença semântica é enorme. Ao usar algarismos romanos, fica evidente que você está falando do número 5 em vez da letra V. Certamente eles parecem iguais, mas significam diferentes. Isso significa que o mecanismo de pesquisa pode ter uma chance maior de encontrar a "XX marca V" ao pesquisar na "XX versão 5".
De fato, a razão pela qual algumas coisas funcionam mal é porque não incorporamos informações semânticas. O mundo seria, de fato, um lugar melhor, se quiséssemos. Portanto, usar o significado semântico correto é o mesmo que usar estilos em um processador de texto versus estilizar manualmente. Há pouca diferença no lado humano, mas grande poder na automação.
As fontes devem formar diferentes algarismos romanos
Os criadores de fontes não os estão usando porque não são usados com muita frequência. Mas, usando essas informações, você pode obter as lajes dos números romanos nas letras que as diferenciam do texto. Portanto, o recurso é subutilizado porque é um uso raro. As fontes realmente não implementam tudo, nem deveriam. Ao usá-los, você se beneficiaria se eles estiverem presentes.
Conclusão
Isso tudo é certamente um problema de galinha e ovo. Se as pessoas não usarem os intervalos de caracteres especiais, nenhuma permissão especial para esses intervalos será feita. Portanto, a fonte não suporta literais romanos com estilo especial, porque isso seria desperdiçar esforço em recursos que ninguém usa. O mesmo se aplica à pesquisa: se ninguém usar literais romanos, nenhum mecanismo de pesquisa encontrará literais romanos e a semântica será perdida. A semântica sofre por não adotar o significado semântico correto. O mesmo se aplica certamente a uma gama mais ampla de caracteres Unicode.
Quanto à complexidade da entrada, sim, a maioria dos usuários não pode escrever caracteres estendidos, mas isso não é desculpa para uma pessoa experiente pular isso, se fizer sentido. Se ninguém melhorar as coisas, nunca haverá progresso. Inferno mesmo palavra tem modos para escrever alfa, digitando / alfa. Portanto, não há realmente nenhuma razão para que não possa haver uma maneira fácil de marcar números ou até sugerir automaticamente esses números. Novamente, se ninguém fizer isso, nunca haverá uma adoção mais ampla.
fonte
<compat>
equivalentes às seqüências correspondentes de letras latinas, o que sugere fortemente que a única razão pela qual eles estão no Unicode é pela compatibilidade de ida e volta com alguns conjuntos de caracteres herdados (provavelmente CJK) que os possuíam. Esses caracteres geralmente não devem ser usados, exceto documentos de ida e volta fielmente criados em codificações legadas.