Qual é a gama completa de caracteres chineses em Unicode?

94

U + 4E00..U + 9FFF faz parte do conjunto completo, mas não todos

AMD
fonte
3
Gostaria apenas de vincular um artigo da Wikipédia aqui, já que o intervalo de blocos seria atualizado de tempos em tempos, portanto, é melhor vincular algo que muda dinamicamente ratger tgan dando uma resposta estática ... en.wikipedia.org/wiki/CJK_Unified_Ideographs
user930067

Respostas:

104

Pode ser que você encontre uma lista completa no FAQ do CJK Unicode (que inclui caracteres "chineses, japoneses e coreanos")

O documento " Script do Leste Asiático " menciona:

Blocos contendo ideogramas han

Os caracteres ideográficos han são encontrados em cinco blocos principais do padrão Unicode, conforme mostrado na Tabela 12-2

Tabela 12-2. Blocos contendo ideogramas han

Block                                   Range       Comment
CJK Unified Ideographs                  4E00-9FFF   Common
CJK Unified Ideographs Extension A      3400-4DBF   Rare
CJK Unified Ideographs Extension B      20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C      2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D      2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E      2B820–2CEAF Rare, historic
CJK Compatibility Ideographs            F900-FAFF   Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants

Nota: os intervalos de blocos podem evoluir com o tempo: o mais recente está nos Ideógrafos Unificados CJK .

Veja também Wikipedia:

VonC
fonte
Você também pode querer incluir U + AC00 - U + D7AF (sílabas Hangul).
Flimm 01 de
12
@Flimm: Hangul não faz parte do padrão chinês; Hangul é coreano. Idioma coreano faz usos Hanja ( "escrita chinesa"), mas mal e apenas para algumas coisas tradicionais (como últimos nomes, monumentos, lugares ...) que não podem ser transcritas em Hangul. O OP perguntou especificamente sobre o chinês, portanto, não houve necessidade de o Respondente incluir o Hangul. :-)
omninonsense
1
A lista parece não cobrir a pontuação ("。").
Michał Woliński
1
@ MichałWoliński CJK O intervalo de símbolos e pontuação é 3000-303F
Mariano
Eu aprendi que a extensão A da Ideographs unificada CJK é de 3400 a 4dbf em vez de 3400 a 4dff.
Lerner Zhang
48

Unicode atualmente tem 74605 caracteres CJK. Os caracteres CJK não incluem apenas os caracteres usados ​​pelos chineses, mas também pelos Kanji japoneses, Hanja coreano e Chu Nom vietnamita . Alguns caracteres CJK não são caracteres chineses.

1) 20941 caracteres do bloco CJK Unified Ideographs .

Pontos de código U + 4E00 a U + 9FCC.

  1. U + 4E00 - U + 62FF
  2. U + 6300 - U + 77FF
  3. U + 7800 - U + 8CFF
  4. U + 8D00 - U + 9FCC

2) 6582 caracteres do bloco CJKUI Ext A .

Codifique os pontos U + 3400 a U + 4DB5 . Unicode 3.0 (1999).

3) 42711 caracteres do bloco CJKUI Ext B .

Codifique os pontos U + 20000 a U + 2A6D6. Unicode 3.1 (2001).

  1. U + 20000 - U + 215FF
  2. U + 21600 - U + 230FF
  3. U + 23100 - U + 245FF
  4. U + 24600 - U + 260FF
  5. U + 26100 - U + 275FF
  6. U + 27600 - U + 290FF
  7. U + 29100 - U + 2A6DF

3) 4149 caracteres do bloco CJKUI Ext C .

Codifique os pontos U + 2A700 a U + 2B734 . Unicode 5.2 (2009).

4) 222 caracteres do bloco CJKUI Ext D .

Pontos de código U + 2B740 a U + 2B81D . Unicode 6.0 (2010).

5) Bloco CJKUI Ext E.

Em breve

Se o que foi dito acima não for espaguete suficiente, dê uma olhada nos problemas conhecidos . Divirta-se =)

Pacerier
fonte
1
Olá, você pode dar um exemplo de um ideograma CJK (de preferência do plano básico) que não seja um caractere chinês? Pensei que caracteres de outras línguas (japonês, coreano) que não fossem chineses também aparecessem em outro bloco (por exemplo, o bloco Hangul Jamo, no caso do coreano) ...
Adam Burley
Tente olhar para 'Gukja', 'Kokuji' e 'Chữ Nôm'. U + 4E44, 乄, é um caractere CJK somente japonês.
Ṃųỻịgǻňạcểơửṩ
21

Os intervalos exatos de caracteres chineses (exceto as extensões) são [\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD].

  1. [\u2e80-\u2fd5]

O suplemento CJK Radicals é um bloco Unicode que contém formas alternativas, frequentemente posicionais, dos radicais Kangxi. Eles são cabeçalhos usados ​​em índices de dicionário e outras coleções de ideogramas CJK organizadas por traço radical.

  1. [\u3190-\u319f]

Kanbun é um bloco Unicode que contém caracteres de anotação usados ​​em cópias japonesas de textos clássicos chineses para indicar a ordem de leitura.

  1. [\u3400-\u4DBF]

CJK Unified Ideographs Extension-A é um bloco Unicode contendo ideogramas han raros.

  1. [\u4E00-\u9FCC]

CJK Unified Ideographs é um bloco Unicode que contém os ideogramas CJK mais comuns usados ​​em chinês e japonês modernos.

  1. [\uF900-\uFAAD]

CJK Compatibility Ideographs é um bloco Unicode criado para conter caracteres Han que foram codificados em vários locais em outras codificações de caracteres estabelecidas, além de suas atribuições CJK Unified Ideographs, a fim de manter a compatibilidade de ida e volta entre Unicode e essas codificações.

Para obter os detalhes, consulte aqui , e as extensões são fornecidas em outras respostas.

Lerner Zhang
fonte
Aquele que votou contra esta resposta poderia me dizer o motivo?
Lerner Zhang
2
Eu não votei negativamente, mas e as extensões B, C, D e E?
Suragch
@Suragch Essas extensões foram fornecidas corretamente em outras respostas, portanto, não há necessidade de eu reescrevê-las. Eu apenas separei claramente as faixas intermediárias.
Lerner Zhang
1. intervalo de CJK Radicals Supplement é 2E80—2EFF 2.Kangxi Radicals não são caracteres chineses, é um componente gráfico de caracteres chineses, são usados ​​especialmente para expressar radicais, por exemplo, ⼻ (U + 2F3B) e 彳 (U + 5F73 ), ⻜ (U + 2EDC) e 飞 (U + 98DE) 3. Se você acha que os kanbun são caracteres chineses, por que não os ideogramas de compatibilidade CJK? Por que não incluiu cartas e meses de CJK?
Voyager
@rambler Obrigado pelo seu conselho. Eu acho que quando processamos o personagem de Chins, devemos considerar os Radicais Kangxi e o Kanbun. Os ideogramas de compatibilidade do CJK são bons, mas as letras e os meses incluídos no CJK são muito raros e não acho que devemos considerá-los.
Lerner Zhang
9

Unicode versão 11.0.0

Em Unicode, os scripts chineses, japoneses e coreanos (CJK) compartilham um fundo comum, conhecido coletivamente como caracteres CJK.

Esses intervalos geralmente contêm pontos de código não atribuídos ou reservados (como U + 2E9A , U + 2EF4 - 2EFF),

caracteres chineses

bottom  top     reference(also have a look at wiki page)    block name
4E00    9FEF    http://www.unicode.org/charts/PDF/U4E00.pdf CJK Unified Ideographs
3400    4DBF    http://www.unicode.org/charts/PDF/U3400.pdf CJK Unified Ideographs Extension A
20000   2A6DF   http://www.unicode.org/charts/PDF/U20000.pdf    CJK Unified Ideographs Extension B
2A700   2B73F   http://www.unicode.org/charts/PDF/U2A700.pdf    CJK Unified Ideographs Extension C
2B740   2B81F   http://www.unicode.org/charts/PDF/U2B740.pdf    CJK Unified Ideographs Extension D
2B820   2CEAF   http://www.unicode.org/charts/PDF/U2B820.pdf    CJK Unified Ideographs Extension E
2CEB0   2EBEF   https://www.unicode.org/charts/PDF/U2CEB0.pdf   CJK Unified Ideographs Extension F
3007    3007    https://zh.wiktionary.org/wiki/%E3%80%87    in block CJK Symbols and Punctuation
  • No bloco CJK Unified Ideographs , noto que muitas respostas usam o limite superior 9FCC, mas U + 9FCD (鿍) é de fato um caractere chinês. E todos os caracteres neste bloco são caracteres chineses (também usados ​​em japonês ou coreano, etc.).
  • A maioria dos caracteres em CJK Unified Ideograohs Ext (exceto Ext F, apenas 17% em Ext F são caracteres chineses), são caracteres chineses tradicionais, raramente usados ​​na China.
  • 〇 é a forma de caractere chinês zero e ainda é usada hoje

Portanto, o intervalo é

[0x3007,0x3007], [0x3400,0x4DBF], [0x4E00,0x9FEF], [0x20000,0x2EBFF]

Caracteres CJK, mas nunca usados ​​em chinês

Eles são Han comuns usados ​​apenas para compatibilidade.

É quase impossível vê-los aparecer em qualquer livro, artigo, escrita chinesa etc.

todos os caracteres aqui têm um correspondente caractere chinês idêntico ao glifo. Como 金 (U + F90A) e 金 (U + 91D1), eles são idênticos em Glyph.

 F900    FAFF   https://www.unicode.org/charts/PDF/UF900.pdf  CJK Compatibility Ideographs
2F800   2FA1F   https://www.unicode.org/charts/PDF/U2F800.pdf CJK Compatibility Ideographs Supplement

Símbolos relacionados a CJK

2E80    2EFF    http://www.unicode.org/charts/PDF/U2E80.pdf CJK Radicals Supplement

2F00    2FDF    http://www.unicode.org/charts/PDF/U2F00.pdf Kangxi Radicals 
2FF0    2FFF    https://unicode.org/charts/PDF/U2FF0.pdf    Ideographic Description Character
3000    303F    https://www.unicode.org/charts/PDF/U3000.pdf    CJK Symbols and Punctuation
3100    312f    https://unicode.org/charts/PDF/U3100.pdf    Bopomofo
31A0    31BF    https://unicode.org/charts/PDF/U31A0.pdf    Bopomofo Extended
31C0    31EF    http://www.unicode.org/charts/PDF/U31C0.pdf CJK Strokes
3200    32FF    https://unicode.org/charts/PDF/U3200.pdf    Enclosed CJK Letters and Months
3300    33FF    https://unicode.org/charts/PDF/U3300.pdf    CJK Compatibility
FE30    FE4F    https://www.unicode.org/charts/PDF/UFE30.pdf    CJK Compatibility Forms
FF00    FFEF    https://www.unicode.org/charts/PDF/UFF00.pdf    Halfwidth and Fullwidth Forms
1F200   1F2FF   https://www.unicode.org/charts/PDF/U1F200.pdf   Enclosed Ideographic Supplement
  • alguns blocos, como Hangul Compatibility Jamo, foram abandonados por não terem relação com os chineses.
  • Radicais de Kangxi não são caracteres chineses, são componentes gráficos de caracteres chineses, são usados ​​especialmente para expressar radicais, .eg ⼻ (U + 2F3B) e 彳 (U + 5F73), ⻜ (U + 2EDC) e 飞 (U + 98DE)

Outra pontuação comum aparece em chinês

Esta é uma vasta gama, algumas pontuações talvez nunca sejam usadas, algumas pontuações como as que ……”“são muito usadas em chinês.

0000    007F    https://unicode.org/charts/PDF/U0000.pdf    C0 Controls and Basic Latin 
2000    206F    https://unicode.org/charts/PDF/U2000.pdf    General Punctuation
……

Existem também muitos símbolos relacionados ao chinês, como Yijing Hexagram Symbols ou Kanbun , mas está fora do tópico de qualquer maneira. Escrevo caracteres não-chineses em CJK para ter uma melhor explicação do que são caracteres chineses. E os intervalos acima já cobrem quase todos os caracteres que aparecem na escrita chinesa, exceto matemática e outras notações de especialidade.

Suplementar

Símbolos e pontuação CJK

 、。〃〄々〆〇〈〉《》「」『』【】〒〓〔〕〖〗〘〙〚〛〜〝〞〟〠〡〢〣〤〥〦〧〨〩〪〭〮〯〫〬〰〱〲〳〴〵〶〷〸〹〺〻〼〽 〾 〿

Meia largura e formulários de largura total

!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~⦅⦆。「」、・ヲァィゥェォャュョッーアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワン゙゚ᄀᄁᆪᄂᆬᆭᄃᄄᄅᆰᆱᆲᆳᆴᆵᄚᄆᄇᄈᄡᄉᄊᄋᄌᄍᄎᄏᄐᄑ하ᅢᅣᅤᅥᅦᅧᅨᅩᅪᅫᅬᅭᅮᅯᅰᅱᅲᅳᅴᅵ¢£¬ ̄¦¥₩│←↑→↓■○

Referir

  1. https://zh.wikipedia.org/wiki/%E6%B1%89%E5%AD%97 (em chinês, observe a barra lateral direita)
  2. https://zh.wikipedia.org/wiki/%E4%B8%AD%E6%97%A5%E9%9F%93%E7%9B%B8%E5%AE%B9%E8%A1%A8%E6 % 84% 8F% E6% 96% 87% E5% AD% 97 (observe a tabela inferior)
  3. http://www.unicode.org
Viajante
fonte
2

Os blocos de código Unicode que as outras respostas forneceram certamente cobrem a maioria dos caracteres Unicode chineses, mas verifique alguns desses outros blocos de código também.

CJK_UNIFIED_IDEOGRAPHS
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_E
CJK_COMPATIBILITY
CJK_COMPATIBILITY_FORMS
CJK_COMPATIBILITY_IDEOGRAPHS
CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT
CJK_RADICALS_SUPPLEMENT
CJK_STROKES
CJK_SYMBOLS_AND_PUNCTUATION
ENCLOSED_CJK_LETTERS_AND_MONTHS
ENCLOSED_IDEOGRAPHIC_SUPPLEMENT
KANGXI_RADICALS
IDEOGRAPHIC_DESCRIPTION_CHARACTERS

Veja minha discussão mais completa aqui . E este site é conveniente para navegar em Unicode.

Suragch
fonte
1

Para resumir, parece que são eles:

var blocks = [
  [0x3400, 0x4DB5],
  [0x4E00, 0x62FF],
  [0x6300, 0x77FF],
  [0x7800, 0x8CFF],
  [0x8D00, 0x9FCC],
  [0x2e80, 0x2fd5],
  [0x3190, 0x319f],
  [0x3400, 0x4DBF],
  [0x4E00, 0x9FCC],
  [0xF900, 0xFAAD],
  [0x20000, 0x215FF],
  [0x21600, 0x230FF],
  [0x23100, 0x245FF],
  [0x24600, 0x260FF],
  [0x26100, 0x275FF],
  [0x27600, 0x290FF],
  [0x29100, 0x2A6DF],
  [0x2A700, 0x2B734],
  [0x2B740, 0x2B81D]
]
Lance Pollard
fonte