Gostaria apenas de vincular um artigo da Wikipédia aqui, já que o intervalo de blocos seria atualizado de tempos em tempos, portanto, é melhor vincular algo que muda dinamicamente ratger tgan dando uma resposta estática ... en.wikipedia.org/wiki/CJK_Unified_Ideographs
user930067
Respostas:
104
Pode ser que você encontre uma lista completa no FAQ do CJK Unicode (que inclui caracteres "chineses, japoneses e coreanos")
Você também pode querer incluir U + AC00 - U + D7AF (sílabas Hangul).
Flimm 01 de
12
@Flimm: Hangul não faz parte do padrão chinês; Hangul é coreano. Idioma coreano faz usos Hanja ( "escrita chinesa"), mas mal e apenas para algumas coisas tradicionais (como últimos nomes, monumentos, lugares ...) que não podem ser transcritas em Hangul. O OP perguntou especificamente sobre o chinês, portanto, não houve necessidade de o Respondente incluir o Hangul. :-)
Eu aprendi que a extensão A da Ideographs unificada CJK é de 3400 a 4dbf em vez de 3400 a 4dff.
Lerner Zhang
48
Unicode atualmente tem 74605 caracteres CJK. Os caracteres CJK não incluem apenas os caracteres usados pelos chineses, mas também pelos Kanji japoneses, Hanja coreano e Chu Nom vietnamita . Alguns caracteres CJK não são caracteres chineses.
Olá, você pode dar um exemplo de um ideograma CJK (de preferência do plano básico) que não seja um caractere chinês? Pensei que caracteres de outras línguas (japonês, coreano) que não fossem chineses também aparecessem em outro bloco (por exemplo, o bloco Hangul Jamo, no caso do coreano) ...
Adam Burley
Tente olhar para 'Gukja', 'Kokuji' e 'Chữ Nôm'. U + 4E44, 乄, é um caractere CJK somente japonês.
Ṃųỻịgǻňạcểơửṩ
21
Os intervalos exatos de caracteres chineses (exceto as extensões) são [\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD].
O suplemento CJK Radicals é um bloco Unicode que contém formas alternativas, frequentemente posicionais, dos radicais Kangxi. Eles são cabeçalhos usados em índices de dicionário e outras coleções de ideogramas CJK organizadas por traço radical.
CJK Compatibility Ideographs é um bloco Unicode criado para conter caracteres Han que foram codificados em vários locais em outras codificações de caracteres estabelecidas, além de suas atribuições CJK Unified Ideographs, a fim de manter a compatibilidade de ida e volta entre Unicode e essas codificações.
Para obter os detalhes, consulte aqui , e as extensões são fornecidas em outras respostas.
Aquele que votou contra esta resposta poderia me dizer o motivo?
Lerner Zhang
2
Eu não votei negativamente, mas e as extensões B, C, D e E?
Suragch
@Suragch Essas extensões foram fornecidas corretamente em outras respostas, portanto, não há necessidade de eu reescrevê-las. Eu apenas separei claramente as faixas intermediárias.
Lerner Zhang
1. intervalo de CJK Radicals Supplement é 2E80—2EFF 2.Kangxi Radicals não são caracteres chineses, é um componente gráfico de caracteres chineses, são usados especialmente para expressar radicais, por exemplo, ⼻ (U + 2F3B) e 彳 (U + 5F73 ), ⻜ (U + 2EDC) e 飞 (U + 98DE) 3. Se você acha que os kanbun são caracteres chineses, por que não os ideogramas de compatibilidade CJK? Por que não incluiu cartas e meses de CJK?
Voyager
@rambler Obrigado pelo seu conselho. Eu acho que quando processamos o personagem de Chins, devemos considerar os Radicais Kangxi e o Kanbun. Os ideogramas de compatibilidade do CJK são bons, mas as letras e os meses incluídos no CJK são muito raros e não acho que devemos considerá-los.
Lerner Zhang
9
Unicode versão 11.0.0
Em Unicode, os scripts chineses, japoneses e coreanos (CJK) compartilham um fundo comum, conhecido coletivamente como caracteres CJK.
Esses intervalos geralmente contêm pontos de código não atribuídos ou reservados (como U + 2E9A , U + 2EF4 - 2EFF),
caracteres chineses
bottom top reference(also have a look at wiki page) block name
4E00 9FEF http://www.unicode.org/charts/PDF/U4E00.pdf CJK Unified Ideographs
3400 4DBF http://www.unicode.org/charts/PDF/U3400.pdf CJK Unified Ideographs Extension A
20000 2A6DF http://www.unicode.org/charts/PDF/U20000.pdf CJK Unified Ideographs Extension B
2A700 2B73F http://www.unicode.org/charts/PDF/U2A700.pdf CJK Unified Ideographs Extension C
2B740 2B81F http://www.unicode.org/charts/PDF/U2B740.pdf CJK Unified Ideographs Extension D
2B820 2CEAF http://www.unicode.org/charts/PDF/U2B820.pdf CJK Unified Ideographs Extension E
2CEB0 2EBEF https://www.unicode.org/charts/PDF/U2CEB0.pdf CJK Unified Ideographs Extension F
3007 3007 https://zh.wiktionary.org/wiki/%E3%80%87 in block CJK Symbols and Punctuation
No bloco CJK Unified Ideographs , noto que muitas respostas usam o limite superior 9FCC, mas U + 9FCD (鿍) é de fato um caractere chinês. E todos os caracteres neste bloco são caracteres chineses (também usados em japonês ou coreano, etc.).
A maioria dos caracteres em CJK Unified Ideograohs Ext (exceto Ext F, apenas 17% em Ext F são caracteres chineses), são caracteres chineses tradicionais, raramente usados na China.
〇 é a forma de caractere chinês zero e ainda é usada hoje
alguns blocos, como Hangul Compatibility Jamo, foram abandonados por não terem relação com os chineses.
Radicais de Kangxi não são caracteres chineses, são componentes gráficos de caracteres chineses, são usados especialmente para expressar radicais, .eg ⼻ (U + 2F3B) e 彳 (U + 5F73), ⻜ (U + 2EDC) e 飞 (U + 98DE)
Outra pontuação comum aparece em chinês
Esta é uma vasta gama, algumas pontuações talvez nunca sejam usadas, algumas pontuações como as que ……”“são muito usadas em chinês.
0000 007F https://unicode.org/charts/PDF/U0000.pdf C0 Controls and Basic Latin
2000 206F https://unicode.org/charts/PDF/U2000.pdf General Punctuation
……
Existem também muitos símbolos relacionados ao chinês, como Yijing Hexagram Symbols ou Kanbun , mas está fora do tópico de qualquer maneira. Escrevo caracteres não-chineses em CJK para ter uma melhor explicação do que são caracteres chineses. E os intervalos acima já cobrem quase todos os caracteres que aparecem na escrita chinesa, exceto matemática e outras notações de especialidade.
Os blocos de código Unicode que as outras respostas forneceram certamente cobrem a maioria dos caracteres Unicode chineses, mas verifique alguns desses outros blocos de código também.
Respostas:
Pode ser que você encontre uma lista completa no FAQ do CJK Unicode (que inclui caracteres "chineses, japoneses e coreanos")
O documento " Script do Leste Asiático " menciona:
Tabela 12-2. Blocos contendo ideogramas han
Nota: os intervalos de blocos podem evoluir com o tempo: o mais recente está nos Ideógrafos Unificados CJK .
Veja também Wikipedia:
fonte
Unicode atualmente tem 74605 caracteres CJK. Os caracteres CJK não incluem apenas os caracteres usados pelos chineses, mas também pelos Kanji japoneses, Hanja coreano e Chu Nom vietnamita . Alguns caracteres CJK não são caracteres chineses.
1) 20941 caracteres do bloco CJK Unified Ideographs .
Pontos de código U + 4E00 a U + 9FCC.
2) 6582 caracteres do bloco CJKUI Ext A .
Codifique os pontos U + 3400 a U + 4DB5 . Unicode 3.0 (1999).
3) 42711 caracteres do bloco CJKUI Ext B .
Codifique os pontos U + 20000 a U + 2A6D6. Unicode 3.1 (2001).
3) 4149 caracteres do bloco CJKUI Ext C .
Codifique os pontos U + 2A700 a U + 2B734 . Unicode 5.2 (2009).
4) 222 caracteres do bloco CJKUI Ext D .
Pontos de código U + 2B740 a U + 2B81D . Unicode 6.0 (2010).
5) Bloco CJKUI Ext E.
Em breve
Se o que foi dito acima não for espaguete suficiente, dê uma olhada nos problemas conhecidos . Divirta-se =)
fonte
Os intervalos exatos de caracteres chineses (exceto as extensões) são
[\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD]
.[\u2e80-\u2fd5]
[\u3190-\u319f]
[\u3400-\u4DBF]
[\u4E00-\u9FCC]
[\uF900-\uFAAD]
Para obter os detalhes, consulte aqui , e as extensões são fornecidas em outras respostas.
fonte
Unicode versão 11.0.0
Em Unicode, os scripts chineses, japoneses e coreanos (CJK) compartilham um fundo comum, conhecido coletivamente como caracteres CJK.
Esses intervalos geralmente contêm pontos de código não atribuídos ou reservados (como U + 2E9A , U + 2EF4 - 2EFF),
caracteres chineses
Portanto, o intervalo é
Caracteres CJK, mas nunca usados em chinês
Eles são Han comuns usados apenas para compatibilidade.
É quase impossível vê-los aparecer em qualquer livro, artigo, escrita chinesa etc.
todos os caracteres aqui têm um correspondente caractere chinês idêntico ao glifo. Como 金 (U + F90A) e 金 (U + 91D1), eles são idênticos em Glyph.
Símbolos relacionados a CJK
Outra pontuação comum aparece em chinês
Esta é uma vasta gama, algumas pontuações talvez nunca sejam usadas, algumas pontuações como as que
……”“
são muito usadas em chinês.Existem também muitos símbolos relacionados ao chinês, como Yijing Hexagram Symbols ou Kanbun , mas está fora do tópico de qualquer maneira. Escrevo caracteres não-chineses em CJK para ter uma melhor explicação do que são caracteres chineses. E os intervalos acima já cobrem quase todos os caracteres que aparecem na escrita chinesa, exceto matemática e outras notações de especialidade.
Suplementar
Símbolos e pontuação CJK
Meia largura e formulários de largura total
Referir
fonte
Os blocos de código Unicode que as outras respostas forneceram certamente cobrem a maioria dos caracteres Unicode chineses, mas verifique alguns desses outros blocos de código também.
Veja minha discussão mais completa aqui . E este site é conveniente para navegar em Unicode.
fonte
Para resumir, parece que são eles:
fonte