Para o layout, temos nosso famoso texto "Lorem ipsum" para testar sua aparência.
O que estou procurando é um conjunto de arquivos contendo Texto codificado com várias codificações diferentes que posso usar em meus testes JUnit para testar alguns métodos que lidam com a codificação de caracteres ao ler arquivos de texto.
Exemplo:Ter um ISO 8859-1
arquivo de Windows-1252
teste codificado e um arquivo de teste codificado. O Windows-1252 deve acionar as diferenças na região 80 16 - 9F 16 . Em outras palavras, deve conter pelo menos um caractere desta região para distingui-lo do ISO 8859-1.
Talvez o melhor conjunto de arquivos de teste seja aquele em que o arquivo de teste para cada codificação contém todos os seus caracteres uma vez. Mas talvez eu não esteja ciente de sth - todos nós gostamos dessa coisa de codificação, certo? :-)
Existe esse conjunto de arquivos de teste para problemas de codificação de caracteres por aí?
fonte
Respostas:
Que tal tentar usar os arquivos do conjunto de testes ICU ? Não sei se eles são o que você precisa para o seu teste, mas eles parecem ter pelo menos arquivos de mapeamento UTF bastante completos de / para: Link para o repositório para arquivos de teste ICU
fonte
O artigo da Wikipedia sobre diacríticos é bastante abrangente, infelizmente você tem que extrair esses caracteres manualmente. Também pode haver alguns mnemônicos para cada idioma. Por exemplo, em polonês, usamos:
que contém todos os 9 diacríticos poloneses em uma frase correta. Outra dica de pesquisa útil são os pangramas : sentenças usando todas as letras do alfabeto pelo menos uma vez :
A lista de pangramas contém um resumo completo . Alguém se preocupa em embrulhar isso em um simples:
public interface NationalCharacters { String spanish(); String russian(); //... }
biblioteca?
fonte
Não conheço nenhum documento de texto completo, mas se você puder começar com uma visão geral simples de todos os conjuntos de caracteres, existem alguns arquivos disponíveis no servidor ftp.unicode.org
Aqui está o WINDOWS-1252, por exemplo. A primeira coluna é o valor do caractere hexadecimal e a segunda é o valor Unicode.
ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP1250.TXT
fonte
Bem, eu usei uma ferramenta online para criar meus conjuntos de caracteres de texto de Lorem Ipsum. Eu acredito que pode te ajudar. Eu não tenho um que tenha todos os conjuntos de caracteres diferentes em uma única página.
http://generator.lorem-ipsum.info /
fonte