Perguntas com a marcação «unicode»

440
Melhor maneira de reverter uma string

Eu apenas tive que escrever uma função de reversão de string em C # 2.0 (ou seja, LINQ não disponível) e surgiu com isso: public string Reverse(string text) { char[] cArray = text.ToCharArray(); string reverse = String.Empty; for (int i = cArray.Length - 1; i > -1; i--) { reverse +=...

395
O que é Unicode, UTF-8, UTF-16?

Qual é a base do Unicode e por que a necessidade de UTF-8 ou UTF-16? Eu pesquisei isso no Google e procurei aqui também, mas não está claro para mim. No VSS, ao fazer uma comparação de arquivos, às vezes há uma mensagem dizendo que os dois arquivos têm UTFs diferentes. Por que isso seria o...

360
Por que 2 + 40 é igual a 42?

Fiquei perplexo quando um colega me mostrou essa linha de JavaScript alertando 42. alert(2+ 40); Executar snippet de códigoOcultar resultadosExpandir snippet Acontece rapidamente que o que parece ser um sinal de menos é realmente um caractere Unicode arcano com semântica claramente...

348
Como encontrar o comprimento de uma string em R

Como encontrar o comprimento de uma string (número de caracteres em uma string) sem dividi-lo em R? Eu sei como encontrar o comprimento de uma lista, mas não de uma string. E as strings Unicode? Como encontro o comprimento (em bytes) e o número de caracteres (runas, símbolos) em uma string...

257
UnicodeDecodeError, byte de continuação inválido

Por que o item abaixo está falhando? e por que é bem-sucedido com o codec "latin-1"? o = "a test of \xe9 char" #I want this to remain a string as this is what I am receiving v = o.decode("utf-8") resulta em: Traceback (most recent call last): File "<stdin>", line 1, in <module>...

244
Substitua caracteres não ASCII por um único espaço

Preciso substituir todos os caracteres não ASCII (\ x00- \ x7F) por um espaço. Estou surpreso que isso não seja fácil no Python, a menos que esteja faltando alguma coisa. A função a seguir simplesmente remove todos os caracteres não ASCII: def remove_non_ascii_1(text): return ''.join(i for i in...

241
Python: Removendo \ xa0 da string?

Atualmente, estou usando a Beautiful Soup para analisar um arquivo HTML e chamar get_text(), mas parece que estou ficando com muitos \ xa0 Unicode representando espaços. Existe uma maneira eficiente de remover todos eles no Python 2.7 e transformá-los em espaços? Eu acho que a pergunta mais...

239
Quantos bytes leva um caractere Unicode?

Estou um pouco confuso sobre codificações. Até onde eu sei, os caracteres ASCII antigos usavam um byte por caractere. Quantos bytes um caractere Unicode requer? Presumo que um caractere Unicode possa conter todos os caracteres possíveis de qualquer idioma - estou correto? Então, quantos bytes ele...