Вопросы с тегом «unicode»

Unicode - это универсальный набор символов для описания всех символов, необходимых для письменного текста, включая все системы письма, технические символы и знаки препинания.

432
Следует ли считать UTF-16 вредным?

Я собираюсь спросить, что, вероятно, является довольно спорным вопросом: «Следует ли считать одну из самых популярных кодировок, UTF-16, вредной?» Почему я задаю этот вопрос? Сколько программистов знают о том факте, что UTF-16 на самом деле является кодировкой переменной длины? Под этим я...

86
Сможет ли UTF-8 поддерживать включение огромного инопланетного языка с миллионами новых персонажей?

Если произошло инопланетное вторжение, и мы были вынуждены поддерживать их языки во всех наших существующих компьютерных системах, разработан ли UTF-8 таким образом, чтобы учесть их возможно огромное количество символов? (Конечно, мы не знаем, есть ли у инопланетян языки на самом деле, говорят ли...

82
Разве плохо использовать символы Юникода в именах переменных? [закрыто]

Недавно я пытался реализовать алгоритм ранжирования AllegSkill для Python 3. Вот как выглядит математика: Нет, правда. Это то, что я написал: t = (µw-µl)/c # those are used in e = ε/c # multiple places. σw_new = (σw**2 * (1 - (σw**2)/(c**2)*Wwin(t, e)) + γ**2)**.5 Я действительно думал , что он...

41
Почему существует несколько кодировок Unicode?

Я думал, что Unicode был разработан, чтобы обойти всю проблему наличия множества различных кодировок из-за небольшого адресного пространства (8 бит) в большинстве предыдущих попыток (ASCII и т. Д.). Почему тогда так много кодировок Юникода? Даже несколько версий (по сути) одного и того же, как...

37
Должны ли файлы UTF-8 CSV содержать спецификацию (метку порядка байтов)?

Наше программное обеспечение для бизнеса позволяет пользователю сохранять определенные данные в формате CSV . Поскольку в дикой природе используется много разных форматов (все они называются «CSV»), мы пытаемся решить, как должен выглядеть «формат по умолчанию». Что касается разделителей строк /...

35
Юникод лицензия

Условия использования Unicode гласят, что любое программное обеспечение, которое использует свои файлы данных (или их модификацию), должно иметь ссылки на лицензии Unicode. Мне кажется, что большинство библиотек Unicode имеют функции для проверки того, является ли символ цифрой, буквой, символом и...

34
Почему нам нужно поставить N перед строками в Microsoft SQL Server?

Я изучаю T-SQL. Из примеров, которые я видел, чтобы вставить текст в varchar()ячейку, я могу написать только строку для вставки, но для nvarchar()ячеек в каждом примере строки начинаются с буквы N. Я пробовал следующий запрос к таблице, в которой есть nvarchar()строки, и она отлично работает,...

31
Следует ли считать устаревшими кодировки символов помимо UTF-8 (и, возможно, UTF-16 / UTF-32)?

Моя любимая мозоль смотрит на очень много программных проектов, которые имеют горы кода для поддержки набора символов. Не поймите меня неправильно, я за совместимость, и я рад, что текстовые редакторы позволяют открывать и сохранять файлы в нескольких наборах символов. Что меня раздражает, так это...

29
Почему Java использует UTF-16 для внутреннего представления строк?

Я бы предположил, что причина была быстрой: массив похож на доступ к символу по индексу, но некоторые символы не помещаются в 16 бит, поэтому он не будет работать ... Так что если вам все равно приходится работать с особыми случаями, почему бы просто не использовать...

24
Какие проблемы побуждают людей использовать специфичные для Японии кодировки, а не Unicode?

На работе я сталкиваюсь с множеством японских текстовых файлов в Shift-JIS и других кодировках. Это вызывает много проблем mojibake (нечитаемый символ) для всех пользователей компьютера. Unicode предназначался для решения такого рода проблем путем определения единого набора символов для всех...

18
Почему именно PHP не может иметь полную поддержку юникода?

Всем известно, что у PHP проблемы с Unicode. Версия 6 фактически заброшена из-за трудностей реализации Unicode. Но мне интересно, кто-нибудь знает, каковы точные причины? Проблемы архитектуры / дизайна, проблемы производительности, проблемы сообщества (я держу пари, что нет), что-то...

16
Можно ли написать обобщенную функцию обращения строк, которая работает для всех локализаций и типов строк?

Я просто смотрел презентацию Джона Скита (с Тони Пони) из Dev-Days. Хотя «написать функцию обратного преобразования строк» ​​- это кодирование интервью 101 - я не уверен, что на самом деле можно написать общую функцию обратного преобразования строк, конечно, не такую, которая работает во всех...

16
UTF-16 фиксированной или переменной ширины? Почему у UTF-8 нет проблемы порядка следования байтов?

UTF-16 фиксированной или переменной ширины? Я получил разные результаты из разных источников: С http://www.tbray.org/ongoing/When/200x/2003/04/26/UTF : UTF-16 хранит символы Unicode в шестнадцати разрядных блоках. С http://en.wikipedia.org/wiki/UTF-16/UCS-2 : UTF-16 (16-битный формат...

14
Какой смысл добавлять поддержку идентификатора Unicode в различные языковые реализации?

Я лично нахожу, что чтение кода, полного идентификаторов Unicode, сбивает с толку. По моему мнению, это также препятствует тому, чтобы код был легко поддержан. Не говоря уже о всех усилиях, необходимых авторам различных переводчиков для реализации такой поддержки. Я также постоянно замечаю...

14
Значение Юникода, которое я могу использовать?

Я разрабатываю формат файла и хочу сделать все правильно. Поскольку это двоичный формат, самый первый байт (или байты) файла не должен образовывать допустимые текстовые символы (как в заголовке файла PNG 1 ). Это позволяет инструментам, которые не распознают формат, по-прежнему видеть, что это не...

12
Эффективная реализация Trie для строк Unicode

Я искал эффективную реализацию String Trie. В основном я нашел такой код: Ссылочная реализация в Java (за википедию) Мне не нравятся эти реализации в основном по двум причинам: Они поддерживают только 256 символов ASCII. Мне нужно охватить такие вещи, как кириллица. Они крайне неэффективны в...

10
Почему «кодировка» действительно означает «кодирование» в обычном использовании?

Что-то, что меня давно смущало, так это то, что многие программы используют термины «кодировка» и «кодировка» в качестве синонимов. Когда люди ссылаются на «кодировку» Юникода, они всегда имеют в виду набор правил для представления символов Юникода в виде последовательности байтов - например, ASCII...