По вашему опыту, какие символы Unicode, кодовые точки, диапазоны за пределами BMP (Basic Multilingual Plane) являются наиболее распространенными на данный момент? Это те, которые требуют 4 байта в UTF-8 или суррогаты в UTF-16.
Я ожидал, что ответом будут китайские и японские символы, используемые в именах, но не включенные в наиболее распространенные многобайтовые наборы символов CJK, но в проекте, над которым я работаю больше всего, - английском Wiktionary, мы обнаружили, что готический алфавит - это гораздо чаще встречается на данный момент.
ОБНОВИТЬ
Я написал несколько программных инструментов для сканирования целых Википедий на наличие символов, отличных от BMP, и, к своему удивлению, обнаружил, что даже в японской Википедии готический алфавит является наиболее распространенным. Это также верно в отношении китайской Википедии, но в ней также было много китайских иероглифов, используемых до 50 или 70 раз, включая «𨭎», «𠬠» и «𩷶».
источник
Ответы:
Эмодзи сейчас являются наиболее распространенными персонажами, не относящимися к BMP. 😂, также известный как U + 1F602 FACE WITH TEARS OF JOY, является наиболее распространенным в публичном потоке Twitter. Встречается чаще, чем тильда!
источник
Отличный вопрос!
Ответ - математические буквы. В декабре прошлого года я провел сканирование всего корпуса PubMed Open Access и нашел в нем эти цифры для астральных персонажей.
Первое число на рисунках ниже показывает, сколько копий каждой заданной кодовой точки я нашел во всем корпусе. Но сначала, чтобы дать вам представление об относительных частотах, вот десять основных кодов транскрипции ASCII в этом корпусе:
А вот теперь кодовые точки транс-BMP в порядке убывания частоты:
Мне действительно жаль, что я не знал, для чего они использовали U + 100002. :(
Если они не отображаются в вашем браузере, вам следует установить шрифт Symbola Джорджа Дуроса . В нем также есть все забавные кодовые точки Unicode 6.0.0.
источник
Для меня это математические буквенно-цифровые символы , которые используются для математического набора шрифтов OpenType, таких как Cambria Math.
источник