Каков полный диапазон китайских иероглифов в Юникоде?

95

U + 4E00..U + 9FFF является частью полного набора, но не все

О, мой бог
источник
3
Я бы просто привел здесь статью в Википедии, поскольку диапазон блоков будет время от времени обновляться, поэтому лучше связать что-то динамически изменяющееся ratger tgan, дающее статический ответ ... en.wikipedia.org/wiki/CJK_Unified_Ideographs
user930067

Ответы:

104

Возможно, вы найдете полный список в CJK Unicode FAQ (который включает символы "китайского, японского и корейского")

В документе « Восточноазиатская письменность » упоминается:

Блоки, содержащие идеограммы Хана

Идеографические символы хань находятся в пяти основных блоках стандарта Unicode, как показано в таблице 12-2.

Таблица 12-2. Блоки, содержащие идеограммы Хана

Block                                   Range       Comment
CJK Unified Ideographs                  4E00-9FFF   Common
CJK Unified Ideographs Extension A      3400-4DBF   Rare
CJK Unified Ideographs Extension B      20000-2A6DF Rare, historic
CJK Unified Ideographs Extension C      2A700–2B73F Rare, historic
CJK Unified Ideographs Extension D      2B740–2B81F Uncommon, some in current use
CJK Unified Ideographs Extension E      2B820–2CEAF Rare, historic
CJK Compatibility Ideographs            F900-FAFF   Duplicates, unifiable variants, corporate characters
CJK Compatibility Ideographs Supplement 2F800-2FA1F Unifiable variants

Примечание: диапазоны блоков могут со временем развиваться: последнее - в унифицированных идеограммах CJK .

См. Также Википедию:

VonC
источник
Вы также можете включить U + AC00 - U + D7AF (слоги хангыль).
Flimm 01
12
@Flimm: хангыль не является частью китайского стандарта; Хангыль - кореец. Корейский язык действительно использует ханджа («китайское письмо»), но редко и только для некоторых традиционных вещей (например, фамилий, памятников, мест ...), которые нельзя переписать на хангыль. OP спрашивал конкретно о китайском, поэтому ответчик не должен был включать хангыль. :-)
omninonsense
1
В списке нет знаков препинания («。»).
Michał Woliński
1
@ MichałWoliński CJK Символы и знаки препинания - 3000-303F
Мариано
Я узнал, что расширение A унифицированных идеографов CJK составляет от 3400 до 4 дБф, а не от 3400 до 4 дБ.
Lerner Zhang
48

В настоящее время Unicode насчитывает 74605 символов CJK. Символы CJK включают не только символы, используемые в китайском языке, но также и японские кандзи, корейские ханджи и вьетнамские символы Chu Nom . Некоторые символы CJK не являются китайскими иероглифами.

1) 20941 символ из блока CJK Unified Ideographs .

Кодовые точки от U + 4E00 до U + 9FCC.

  1. U + 4E00 - U + 62FF
  2. U + 6300 - U + 77FF
  3. U + 7800 - U + 8CFF
  4. U + 8D00 - U + 9FCC

2) 6582 символов из блока CJKUI внешн A .

Кодовые точки от U + 3400 до U + 4DB5 . Юникод 3.0 (1999).

3) 42711 символов из блока CJKUI внешн B .

Кодовые точки от U + 20000 до U + 2A6D6. Юникод 3.1 (2001 г.).

  1. U + 20000 - U + 215FF
  2. U + 21600 - U + 230FF
  3. U + 23100 - U + 245FF
  4. U + 24600 - U + 260FF
  5. U + 26100 - U + 275FF
  6. U + 27600 - U + 290FF
  7. U + 29100 - U + 2A6DF

3) 4149 символов из блока CJKUI внешн C .

Кодовые точки от U + 2A700 до U + 2B734 . Юникод 5.2 (2009 г.).

4) 222 символов из блока CJKUI внешн D .

Кодовые точки от U + 2B740 до U + 2B81D . Юникод 6.0 (2010).

5) Блок CJKUI Ext E.

Скоро будет

Если описанного выше недостаточно, взгляните на известные проблемы . Удачи =)

Pacerier
источник
1
Привет, вы можете привести пример идеограммы CJK (желательно из базовой плоскости), которая не является китайским иероглифом? Я думал, что символы из других языков (японский, корейский), которые не являются также китайскими иероглифами, появляются в другом блоке (например, блок Hangul Jamo в случае корейского) ...
Адам Берли
Попробуйте посмотреть на «Кукджа», «Кокудзи» и «Чо Ном». U + 4E44, 乄, является символом CJK только для японского языка.
Ṃųỻịgǻňạcểơửṩ
21

Точные диапазоны для китайских символов ( за исключением расширений) являются [\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD].

  1. [\u2e80-\u2fd5]

CJK Radicals Supplement - это блок Unicode, содержащий альтернативные, часто позиционные, формы радикалов Kangxi. Они используются как заголовки в словарных указателях и других коллекциях идеографов CJK, организованных радикальным штрихом.

  1. [\u3190-\u319f]

Канбун - это блок Unicode, содержащий символы аннотации, используемые в японских копиях классических китайских текстов для обозначения порядка чтения.

  1. [\u3400-\u4DBF]

CJK Unified Ideographs Extension-A - это блок Unicode, содержащий редкие иероглифы Han.

  1. [\u4E00-\u9FCC]

CJK Unified Ideographs - это блок Unicode, содержащий наиболее распространенные иероглифы CJK, используемые в современном китайском и японском языках.

  1. [\uF900-\uFAAD]

Идеографы совместимости CJK - это блок Unicode, созданный для содержания символов Han, которые были закодированы в нескольких местах в других установленных кодировках символов, в дополнение к их назначениям унифицированных иероглифов CJK, чтобы сохранить двустороннюю совместимость между Unicode и этими кодировками.

Подробнее см. Здесь , а расширения представлены в других ответах.

Лернер Чжан
источник
Не мог бы тот, кто проголосовал против этого ответа, рассказать мне причину?
Lerner Zhang
2
Я не голосовал против, но как насчет расширений B, C, D и E?
Suragch
@Suragch Эти расширения были правильно указаны в других ответах, поэтому мне не нужно его переписывать. Я только четко разделил диапазоны между ними.
Lerner Zhang
1. Диапазон дополнений CJK Radicals: 2E80—2EFF 2. Радикалы Kangxi - это не китайские иероглифы, это графический компонент китайских иероглифов, он используется специально для выражения радикалов, например (U + 2F3B) и 彳 (U + 5F73) ), ⻜ (U + 2EDC) и 飞 (U + 98DE) 3. Если вы думаете, что канбун - это китайские символы, почему бы не использовать иероглифы совместимости с CJK? Почему не вложенные буквы и месяцы CJK?
Voyager
@rambler Спасибо за совет. Я думаю, что когда мы обрабатываем характер китайцев, мы должны учитывать радикалы Канси и канбун. Идеографы совместимости CJK - это хорошо, но заключенные буквы CJK и месяцы встречаются слишком редко, и я не думаю, что мы должны их учитывать.
Lerner Zhang
10

Юникод версии 11.0.0

В Unicode китайские, японские и корейские (CJK) сценарии имеют общий фон, вместе известный как символы CJK.

Эти диапазоны часто содержат неназначенные или зарезервированные кодовые точки (например, U + 2E9A , U + 2EF4 - 2EFF),

китайские иероглифы

bottom  top     reference(also have a look at wiki page)    block name
4E00    9FEF    http://www.unicode.org/charts/PDF/U4E00.pdf CJK Unified Ideographs
3400    4DBF    http://www.unicode.org/charts/PDF/U3400.pdf CJK Unified Ideographs Extension A
20000   2A6DF   http://www.unicode.org/charts/PDF/U20000.pdf    CJK Unified Ideographs Extension B
2A700   2B73F   http://www.unicode.org/charts/PDF/U2A700.pdf    CJK Unified Ideographs Extension C
2B740   2B81F   http://www.unicode.org/charts/PDF/U2B740.pdf    CJK Unified Ideographs Extension D
2B820   2CEAF   http://www.unicode.org/charts/PDF/U2B820.pdf    CJK Unified Ideographs Extension E
2CEB0   2EBEF   https://www.unicode.org/charts/PDF/U2CEB0.pdf   CJK Unified Ideographs Extension F
3007    3007    https://zh.wiktionary.org/wiki/%E3%80%87    in block CJK Symbols and Punctuation
  • В блоке CJK Unified Ideographs я заметил, что во многих ответах используется верхняя граница 9FCC, но U + 9FCD (鿍) действительно является китайским символом. И все символы в этом блоке - китайские символы (также используются в японском, корейском и т. Д.).
  • Большинство символов в CJK Unified Ideograohs Ext (кроме Ext F, только 17% в Ext F являются китайскими иероглифами) являются традиционными китайскими иероглифами, которые редко используются в Китае.
  • 〇 - это китайская иероглифическая форма нуля, которая используется до сих пор.

Следовательно, диапазон

[0x3007,0x3007], [0x3400,0x4DBF], [0x4E00,0x9FEF], [0x20000,0x2EBFF]

Символы CJK, но никогда не использовались в китайском языке

Это Common Han, используемый только для совместимости.

Их почти невозможно увидеть ни в одной китайской книге, статье, сочинении и т. Д.

все символы здесь имеют один соответствующий глиф-идентичный китайский иероглиф. Такие как 金 (U + F90A) и 金 (U + 91D1), они идентичны в Glyph.

 F900    FAFF   https://www.unicode.org/charts/PDF/UF900.pdf  CJK Compatibility Ideographs
2F800   2FA1F   https://www.unicode.org/charts/PDF/U2F800.pdf CJK Compatibility Ideographs Supplement

Символы, связанные с CJK

2E80    2EFF    http://www.unicode.org/charts/PDF/U2E80.pdf CJK Radicals Supplement

2F00    2FDF    http://www.unicode.org/charts/PDF/U2F00.pdf Kangxi Radicals 
2FF0    2FFF    https://unicode.org/charts/PDF/U2FF0.pdf    Ideographic Description Character
3000    303F    https://www.unicode.org/charts/PDF/U3000.pdf    CJK Symbols and Punctuation
3100    312f    https://unicode.org/charts/PDF/U3100.pdf    Bopomofo
31A0    31BF    https://unicode.org/charts/PDF/U31A0.pdf    Bopomofo Extended
31C0    31EF    http://www.unicode.org/charts/PDF/U31C0.pdf CJK Strokes
3200    32FF    https://unicode.org/charts/PDF/U3200.pdf    Enclosed CJK Letters and Months
3300    33FF    https://unicode.org/charts/PDF/U3300.pdf    CJK Compatibility
FE30    FE4F    https://www.unicode.org/charts/PDF/UFE30.pdf    CJK Compatibility Forms
FF00    FFEF    https://www.unicode.org/charts/PDF/UFF00.pdf    Halfwidth and Fullwidth Forms
1F200   1F2FF   https://www.unicode.org/charts/PDF/U1F200.pdf   Enclosed Ideographic Supplement
  • некоторые блоки, такие как Hangul Compatibility Jamo , заброшены из-за отсутствия отношения к китайскому языку.
  • Kangxi Radicals - это не китайские иероглифы, это графический компонент китайских иероглифов, он используется специально для выражения радикалов, например (U + 2F3B) и 彳 (U + 5F73), ⻜ (U + 2EDC) и 飞 (U + 98DE)

Другая распространенная пунктуация встречается в китайском языке

Это широкий диапазон, некоторые знаки препинания, возможно, никогда не используются, некоторые знаки препинания, ……”“которые так часто используются в китайском языке.

0000    007F    https://unicode.org/charts/PDF/U0000.pdf    C0 Controls and Basic Latin 
2000    206F    https://unicode.org/charts/PDF/U2000.pdf    General Punctuation
……

Есть также много связанных с Китаем символов, таких как символы гексаграммы Ицзин или канбун , но это все равно не по теме. Я пишу некитайские иероглифы в CJK, чтобы лучше понять, что такое китайские иероглифы. А приведенные выше диапазоны уже охватывают почти все символы, встречающиеся в китайском письме, за исключением математических и других специальных обозначений.

Дополнительный

Символы и знаки препинания CJK

 、。〃〄々〆〇〈〉《》「」『』【】〒〓〔〕〖〗〘〙〚〛〜〝〞〟〠〡〢〣〤〥〦〧〨〩〪〭〮〯〫〬〰〱〲〳〴〵〶〷〸〹〺〻〼〽 〾 〿

Формы половинной и полной ширины

!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~⦅⦆。「」、・ヲァィゥェォャュョッーアイウエオカキクケコサシスセソタチツテトナニヌネノハヒフヘホマミムメモヤユヨラリルレロワン゙゚ᄀᄁᆪᄂᆬᆭᄃᄄᄅᆰᆱᆲᆳᆴᆵᄚᄆᄇᄈᄡᄉᄊᄋᄌᄍᄎᄏᄐᄑ하ᅢᅣᅤᅥᅦᅧᅨᅩᅪᅫᅬᅭᅮᅯᅰᅱᅲᅳᅴᅵ¢£¬ ̄¦¥₩│←↑→↓■○

Обратитесь

  1. https://zh.wikipedia.org/wiki/%E6%B1%89%E5%AD%97 (на китайском языке обратите внимание на правую боковую панель)
  2. https://zh.wikipedia.org/wiki/%E4%B8%AD%E6%97%A5%E9%9F%93%E7%9B%B8%E5%AE%B9%E8%A1%A8%E6 % 84% 8F% E6% 96% 87% E5% AD% 97 (обратите внимание на нижнюю таблицу)
  3. http://www.unicode.org
Вояджер
источник
2

Блоки кода Unicode, которые дали другие ответы, безусловно, охватывают большинство китайских символов Unicode, но посмотрите и некоторые из этих других блоков кода.

CJK_UNIFIED_IDEOGRAPHS
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_C
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_D
CJK_UNIFIED_IDEOGRAPHS_EXTENSION_E
CJK_COMPATIBILITY
CJK_COMPATIBILITY_FORMS
CJK_COMPATIBILITY_IDEOGRAPHS
CJK_COMPATIBILITY_IDEOGRAPHS_SUPPLEMENT
CJK_RADICALS_SUPPLEMENT
CJK_STROKES
CJK_SYMBOLS_AND_PUNCTUATION
ENCLOSED_CJK_LETTERS_AND_MONTHS
ENCLOSED_IDEOGRAPHIC_SUPPLEMENT
KANGXI_RADICALS
IDEOGRAPHIC_DESCRIPTION_CHARACTERS

Смотрите мое более полное обсуждение здесь . И этот сайт удобен для просмотра Unicode.

Suragch
источник
1

Подводя итог, это звучит так:

var blocks = [
  [0x3400, 0x4DB5],
  [0x4E00, 0x62FF],
  [0x6300, 0x77FF],
  [0x7800, 0x8CFF],
  [0x8D00, 0x9FCC],
  [0x2e80, 0x2fd5],
  [0x3190, 0x319f],
  [0x3400, 0x4DBF],
  [0x4E00, 0x9FCC],
  [0xF900, 0xFAAD],
  [0x20000, 0x215FF],
  [0x21600, 0x230FF],
  [0x23100, 0x245FF],
  [0x24600, 0x260FF],
  [0x26100, 0x275FF],
  [0x27600, 0x290FF],
  [0x29100, 0x2A6DF],
  [0x2A700, 0x2B734],
  [0x2B740, 0x2B81D]
]
Лэнс Поллард
источник