Вопросы с тегом «unicode»

162
В чем разница между символом, кодовой точкой, глифом и графемой?

От попыток разобраться в тонкостях современного Unicode у меня заболела голова. В частности, различие между кодовыми точками, символами, глифами и графемами - концепциями, которые в простейшем случае, при работе с английским текстом с использованием символов ASCII, все имеют однозначное отношение...

158
MySQL «неправильное значение строки» ошибка при сохранении строки Unicode в Django

При попытке сохранить first_name, last_name в модель Django auth_user я получил странное сообщение об ошибке. Неудачные примеры user = User.object.create_user(username, email, password) user.first_name = u'Rytis' user.last_name = u'Slatkevičius' user.save() >>> Incorrect string value:...

149
Python, Unicode и консоль Windows

На этот вопрос есть ответы на Stack Overflow на русском : Как из Python вывести на Windows-консоль строку в Юникоде? Когда я пытаюсь напечатать строку Unicode в консоли Windows, я получаю сообщение UnicodeEncodeError: 'charmap' codec can't encode character ....об ошибке. Я предполагаю, что это...

149
Что такое «суррогатная пара» в Java?

Я читал документацию для StringBuffer, в частности, метода reverse () . Эта документация упоминает что-то о суррогатных парах . Что такое суррогатная пара в этом контексте? А что такое низкие и высокие суррогаты?...

148
Строка Python печатается как [u'String ']

На этот вопрос есть ответы на Stack Overflow in English : по кодировкам utf-8 выдает результат по-разному при печати строк по отдельности и списка целиком Конечно, это будет легко, но меня это действительно беспокоит. У меня есть сценарий, который читает веб-страницу и использует Beautiful Soup...

140
Могу ли я заставить git распознавать файл UTF-16 как текст?

Я отслеживаю файл виртуальной машины Virtual PC (* .vmc) в git, и после внесения изменений git определил файл как двоичный и не стал бы различать его для меня. Я обнаружил, что файл был закодирован в UTF-16. Можно ли научить git распознавать, что это текстовый файл, и обрабатывать его...

140
Почему Python печатает символы юникода, если кодировка по умолчанию - ASCII?

Из оболочки Python 2.6: >>> import sys >>> print sys.getdefaultencoding() ascii >>> print u'\xe9' é >>> Я ожидал, что после оператора печати будет какая-то тарабарщина или ошибка, поскольку символ «é» не является частью ASCII, и я не указал кодировку. Думаю, я...

137
Разница между UTF-8 и UTF-16?

Разница между UTF-8 и UTF-16? Зачем нам это нужно? MessageDigest md = MessageDigest.getInstance("SHA-256"); String text = "This is some text"; md.update(text.getBytes("UTF-8")); // Change this to "UTF-16" if needed byte[] digest =

136
NameError: глобальное имя 'unicode' не определено - в Python 3

Я пытаюсь использовать пакет Python под названием bidi. В модуле этого пакета (algorithm.py) есть несколько строк, которые выдают мне ошибку, хотя это часть пакета. Вот строки: # utf-8 ? we need unicode if isinstance(unicode_or_str, unicode): text = unicode_or_str decoded = False else: text =...

135
Юникод символы в URL

В 2010 году вы бы обслуживали URL-адреса, содержащие символы UTF-8, на большом веб-портале? Символы Юникода запрещены согласно RFC на URL (см. Здесь ). Они должны быть закодированы в процентах, чтобы соответствовать стандартам. Тем не менее, моя главная мысль - это обслуживание некодированных...

134
Вставить символ Юникода в JavaScript

Мне нужно вставить Омегу (Ω) на мою HTML-страницу. Для этого я использую его экранированный код HTML, поэтому я могу написать Ωи получить Ω. Это все прекрасно, когда я помещаю это в элемент HTML; однако, когда я пытаюсь поместить его в свой JS, например var Omega = Ω, он...

130
Что такое нормализованный UTF-8?

Проект ICU (который теперь также имеет библиотеку PHP ) содержит классы, необходимые для нормализации строк UTF-8, чтобы упростить сравнение значений при поиске. Однако я пытаюсь понять, что это значит для приложений. Например, в каких случаях мне нужно «Каноническая эквивалентность» вместо...

130
Проблема с кодировкой Java FileReader

Я попытался использовать java.io.FileReader для чтения некоторых текстовых файлов и преобразования их в строку, но обнаружил, что результат неверно закодирован и вообще не читается. Вот моя среда: Windows 2003, кодировка ОС: CP1252 Java 5.0 Мои файлы имеют кодировку UTF-8 или CP1252, и некоторые из...

129
Преобразование символов и букв с ударением в английский алфавит

Проблема в том, что, как вы знаете, в диаграмме Unicode есть тысячи символов, и я хочу преобразовать все похожие символы в буквы английского алфавита. Например, вот несколько преобразований: ҥ->H Ѷ->V Ȳ->Y Ǭ->O Ƈ->C tђє Ŧค๓เℓy --> the Family ... и я увидел, что существует более 20...

127
Какой код символа HTML 8203?

Что означает код символа (HTML) &#8203;? Я нашел его в одном из моих скриптов jQuery и задумался, что это такое ... Спасибо. Редактировать: Вот сценарий, в котором он был (добавлен в конец, нашел в Firebug) <script src="http://code.jquery.com/jquery-latest.js"...

126
Эквиваленты Unicode для \ w и \ b в регулярных выражениях Java?

Многие современные реализации регулярных выражений интерпретируют \wсокращение класса символов как «любую букву, цифру или соединительную пунктуацию» (обычно: подчеркивание). Таким образом, регулярное выражение , как \w+спички слова , как hello, élève, GOÄ_432или gefräßig. К сожалению, в Java нет....

120
Как предотвратить отображение символов Юникода как эмодзи в HTML из JavaScript?

Я нахожу Unicode для специальных символов из поиска FileFormat.Info . Некоторые символы отображаются как классические черно-белые глифы, например ⚠ (предупреждающий знак \u26A0или &#x26a0;). Это предпочтительнее, поскольку я могу применять к ним стили CSS (например, цвет). Другие...