Я бы просто привел здесь статью в Википедии, поскольку диапазон блоков будет время от времени обновляться, поэтому лучше связать что-то динамически изменяющееся ratger tgan, дающее статический ответ ... en.wikipedia.org/wiki/CJK_Unified_Ideographs
user930067
Ответы:
104
Возможно, вы найдете полный список в CJK Unicode FAQ (который включает символы "китайского, японского и корейского")
Вы также можете включить U + AC00 - U + D7AF (слоги хангыль).
Flimm 01
12
@Flimm: хангыль не является частью китайского стандарта; Хангыль - кореец. Корейский язык действительно использует ханджа («китайское письмо»), но редко и только для некоторых традиционных вещей (например, фамилий, памятников, мест ...), которые нельзя переписать на хангыль. OP спрашивал конкретно о китайском, поэтому ответчик не должен был включать хангыль. :-)
Я узнал, что расширение A унифицированных идеографов CJK составляет от 3400 до 4 дБф, а не от 3400 до 4 дБ.
Lerner Zhang
48
В настоящее время Unicode насчитывает 74605 символов CJK. Символы CJK включают не только символы, используемые в китайском языке, но также и японские кандзи, корейские ханджи и вьетнамские символы Chu Nom . Некоторые символы CJK не являются китайскими иероглифами.
Привет, вы можете привести пример идеограммы CJK (желательно из базовой плоскости), которая не является китайским иероглифом? Я думал, что символы из других языков (японский, корейский), которые не являются также китайскими иероглифами, появляются в другом блоке (например, блок Hangul Jamo в случае корейского) ...
Адам Берли
Попробуйте посмотреть на «Кукджа», «Кокудзи» и «Чо Ном». U + 4E44, 乄, является символом CJK только для японского языка.
Ṃųỻịgǻňạcểơửṩ
21
Точные диапазоны для китайских символов ( за исключением расширений) являются [\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD].
CJK Radicals Supplement - это блок Unicode, содержащий альтернативные, часто позиционные, формы радикалов Kangxi. Они используются как заголовки в словарных указателях и других коллекциях идеографов CJK, организованных радикальным штрихом.
Идеографы совместимости CJK - это блок Unicode, созданный для содержания символов Han, которые были закодированы в нескольких местах в других установленных кодировках символов, в дополнение к их назначениям унифицированных иероглифов CJK, чтобы сохранить двустороннюю совместимость между Unicode и этими кодировками.
Подробнее см. Здесь , а расширения представлены в других ответах.
Не мог бы тот, кто проголосовал против этого ответа, рассказать мне причину?
Lerner Zhang
2
Я не голосовал против, но как насчет расширений B, C, D и E?
Suragch
@Suragch Эти расширения были правильно указаны в других ответах, поэтому мне не нужно его переписывать. Я только четко разделил диапазоны между ними.
Lerner Zhang
1. Диапазон дополнений CJK Radicals: 2E80—2EFF 2. Радикалы Kangxi - это не китайские иероглифы, это графический компонент китайских иероглифов, он используется специально для выражения радикалов, например (U + 2F3B) и 彳 (U + 5F73) ), ⻜ (U + 2EDC) и 飞 (U + 98DE) 3. Если вы думаете, что канбун - это китайские символы, почему бы не использовать иероглифы совместимости с CJK? Почему не вложенные буквы и месяцы CJK?
Voyager
@rambler Спасибо за совет. Я думаю, что когда мы обрабатываем характер китайцев, мы должны учитывать радикалы Канси и канбун. Идеографы совместимости CJK - это хорошо, но заключенные буквы CJK и месяцы встречаются слишком редко, и я не думаю, что мы должны их учитывать.
Lerner Zhang
10
Юникод версии 11.0.0
В Unicode китайские, японские и корейские (CJK) сценарии имеют общий фон, вместе известный как символы CJK.
Эти диапазоны часто содержат неназначенные или зарезервированные кодовые точки (например, U + 2E9A , U + 2EF4 - 2EFF),
китайские иероглифы
bottom top reference(also have a look at wiki page) block name
4E00 9FEF http://www.unicode.org/charts/PDF/U4E00.pdf CJK Unified Ideographs
3400 4DBF http://www.unicode.org/charts/PDF/U3400.pdf CJK Unified Ideographs Extension A
20000 2A6DF http://www.unicode.org/charts/PDF/U20000.pdf CJK Unified Ideographs Extension B
2A700 2B73F http://www.unicode.org/charts/PDF/U2A700.pdf CJK Unified Ideographs Extension C
2B740 2B81F http://www.unicode.org/charts/PDF/U2B740.pdf CJK Unified Ideographs Extension D
2B820 2CEAF http://www.unicode.org/charts/PDF/U2B820.pdf CJK Unified Ideographs Extension E
2CEB0 2EBEF https://www.unicode.org/charts/PDF/U2CEB0.pdf CJK Unified Ideographs Extension F
3007 3007 https://zh.wiktionary.org/wiki/%E3%80%87 in block CJK Symbols and Punctuation
В блоке CJK Unified Ideographs я заметил, что во многих ответах используется верхняя граница 9FCC, но U + 9FCD (鿍) действительно является китайским символом. И все символы в этом блоке - китайские символы (также используются в японском, корейском и т. Д.).
Большинство символов в CJK Unified Ideograohs Ext (кроме Ext F, только 17% в Ext F являются китайскими иероглифами) являются традиционными китайскими иероглифами, которые редко используются в Китае.
〇 - это китайская иероглифическая форма нуля, которая используется до сих пор.
некоторые блоки, такие как Hangul Compatibility Jamo , заброшены из-за отсутствия отношения к китайскому языку.
Kangxi Radicals - это не китайские иероглифы, это графический компонент китайских иероглифов, он используется специально для выражения радикалов, например (U + 2F3B) и 彳 (U + 5F73), ⻜ (U + 2EDC) и 飞 (U + 98DE)
Другая распространенная пунктуация встречается в китайском языке
Это широкий диапазон, некоторые знаки препинания, возможно, никогда не используются, некоторые знаки препинания, ……”“которые так часто используются в китайском языке.
0000 007F https://unicode.org/charts/PDF/U0000.pdf C0 Controls and Basic Latin
2000 206F https://unicode.org/charts/PDF/U2000.pdf General Punctuation
……
Есть также много связанных с Китаем символов, таких как символы гексаграммы Ицзин или канбун , но это все равно не по теме. Я пишу некитайские иероглифы в CJK, чтобы лучше понять, что такое китайские иероглифы. А приведенные выше диапазоны уже охватывают почти все символы, встречающиеся в китайском письме, за исключением математических и других специальных обозначений.
Блоки кода Unicode, которые дали другие ответы, безусловно, охватывают большинство китайских символов Unicode, но посмотрите и некоторые из этих других блоков кода.
Ответы:
Возможно, вы найдете полный список в CJK Unicode FAQ (который включает символы "китайского, японского и корейского")
В документе « Восточноазиатская письменность » упоминается:
Таблица 12-2. Блоки, содержащие идеограммы Хана
Примечание: диапазоны блоков могут со временем развиваться: последнее - в унифицированных идеограммах CJK .
См. Также Википедию:
источник
В настоящее время Unicode насчитывает 74605 символов CJK. Символы CJK включают не только символы, используемые в китайском языке, но также и японские кандзи, корейские ханджи и вьетнамские символы Chu Nom . Некоторые символы CJK не являются китайскими иероглифами.
1) 20941 символ из блока CJK Unified Ideographs .
Кодовые точки от U + 4E00 до U + 9FCC.
2) 6582 символов из блока CJKUI внешн A .
Кодовые точки от U + 3400 до U + 4DB5 . Юникод 3.0 (1999).
3) 42711 символов из блока CJKUI внешн B .
Кодовые точки от U + 20000 до U + 2A6D6. Юникод 3.1 (2001 г.).
3) 4149 символов из блока CJKUI внешн C .
Кодовые точки от U + 2A700 до U + 2B734 . Юникод 5.2 (2009 г.).
4) 222 символов из блока CJKUI внешн D .
Кодовые точки от U + 2B740 до U + 2B81D . Юникод 6.0 (2010).
5) Блок CJKUI Ext E.
Скоро будет
Если описанного выше недостаточно, взгляните на известные проблемы . Удачи =)
источник
Точные диапазоны для китайских символов ( за исключением расширений) являются
[\u2E80-\u2FD5\u3190-\u319f\u3400-\u4DBF\u4E00-\u9FCC\uF900-\uFAAD]
.[\u2e80-\u2fd5]
[\u3190-\u319f]
[\u3400-\u4DBF]
[\u4E00-\u9FCC]
[\uF900-\uFAAD]
Подробнее см. Здесь , а расширения представлены в других ответах.
источник
Юникод версии 11.0.0
В Unicode китайские, японские и корейские (CJK) сценарии имеют общий фон, вместе известный как символы CJK.
Эти диапазоны часто содержат неназначенные или зарезервированные кодовые точки (например, U + 2E9A , U + 2EF4 - 2EFF),
китайские иероглифы
Следовательно, диапазон
Символы CJK, но никогда не использовались в китайском языке
Это Common Han, используемый только для совместимости.
Их почти невозможно увидеть ни в одной китайской книге, статье, сочинении и т. Д.
все символы здесь имеют один соответствующий глиф-идентичный китайский иероглиф. Такие как 金 (U + F90A) и 金 (U + 91D1), они идентичны в Glyph.
Символы, связанные с CJK
Другая распространенная пунктуация встречается в китайском языке
Это широкий диапазон, некоторые знаки препинания, возможно, никогда не используются, некоторые знаки препинания,
……”“
которые так часто используются в китайском языке.Есть также много связанных с Китаем символов, таких как символы гексаграммы Ицзин или канбун , но это все равно не по теме. Я пишу некитайские иероглифы в CJK, чтобы лучше понять, что такое китайские иероглифы. А приведенные выше диапазоны уже охватывают почти все символы, встречающиеся в китайском письме, за исключением математических и других специальных обозначений.
Дополнительный
Символы и знаки препинания CJK
Формы половинной и полной ширины
Обратитесь
источник
Блоки кода Unicode, которые дали другие ответы, безусловно, охватывают большинство китайских символов Unicode, но посмотрите и некоторые из этих других блоков кода.
Смотрите мое более полное обсуждение здесь . И этот сайт удобен для просмотра Unicode.
источник
Подводя итог, это звучит так:
источник