Вопросы с тегом «unicode»

86
Regex: что такое InCombiningDiacriticalMarks?

Очень хорошо известен следующий код для преобразования символов с диакритическими знаками в обычный текст: Normalizer.normalize(text, Normalizer.Form.NFD).replaceAll("\\p{InCombiningDiacriticalMarks}+", ""); Я заменил свой метод "ручной работы" на этот, но мне нужно понимать "регулярное выражение"...

86
Что «не так» с C ++ wchar_t и wstrings? Какие есть альтернативы широким символам?

Я видел, как много людей в сообществе C ++ (особенно ## c ++ на freenode) возражали против использования wstringsи wchar_tи их использования в API Windows. Что на самом деле «не так» с wchar_tи wstring, и если я хочу поддержать интернационализацию, каковы альтернативы широким символам?...

86
Использование 'use utf8;' дает мне "Широкий характер в печати"

Если я запустил следующую программу Perl: perl -e 'use utf8; print "鸡\n";' Я получаю это предупреждение: Wide character in print at -e line 1. Если я запустил эту программу Perl: perl -e 'print "鸡\n";' Я не получаю предупреждения. Я думал, что use utf8необходимо использовать символы UTF-8 в...

85
Где находится база данных Python «лучший ASCII для этого Unicode»?

У меня есть текст, в котором используется пунктуация Unicode, например левая двойная кавычка, правая одинарная кавычка для апострофа и т. Д., И мне он нужен в ASCII. Есть ли в Python база данных этих символов с очевидными заменами ASCII, так что я могу сделать лучше, чем превращать их все в "?" ?...

85
Кодировка Unicode для строковых литералов в C ++ 11

В ответ на связанный с этим вопрос я хотел бы задать вопрос о новых типах символьных и строковых литералов в C ++ 11. Кажется, что теперь у нас есть четыре вида символов и пять видов строковых литералов. Типы персонажей: char a = '\x30'; // character, no semantics wchar_t b = L'\xFFEF'; // wide...

85
WebClient.DownloadString приводит к искажению символов из-за проблем с кодировкой, но браузер в порядке

Следующий код: var text = (new WebClient()).DownloadString("http://export.arxiv.org/api/query?search_query=au:Freidel_L*&start=0&max_results=20")); приводит к переменной, textкоторая содержит, среди прочего, строку "$ κ $ -пространство Минковского, скалярное поле и проблема...

84
Длина MySQL VARCHAR и UTF-8

В MySQL, если я создаю новое VARCHAR(32)поле в таблице UTF-8, означает ли это, что я могу хранить 32 байта данных в этом поле или 32 символа (многобайтовые)?

84
Как преобразовать строку с кодировкой Unicode в строку букв

У меня есть строка с сбежавшим Unicode символами, \uXXXXи я хочу , чтобы преобразовать его в обычные буквы Unicode. Например: "\u0048\u0065\u006C\u006C\u006F World" должен стать "Hello World" Я знаю, что когда я печатаю первую строку, она уже отображается Hello world. Моя проблема в том, что я...

83
Программирование на C: как программировать для Unicode?

Какие предварительные условия необходимы для выполнения строгого программирования Unicode? Означает ли это, что мой код charнигде не должен использовать типы и что нужно использовать функции, которые могут иметь дело с wint_tи wchar_t? И какую роль в этом сценарии играют многобайтовые...

83
Сколько символов можно сопоставить с помощью Unicode?

Я прошу подсчитать все возможные допустимые комбинации в Юникоде с объяснением. Я знаю, что char можно закодировать как 1,2,3 или 4 байта. Я также не понимаю, почему байты продолжения имеют ограничения, хотя начальный байт этого символа очищает, как долго он должен быть....

83
Использование функций unicode () и encode () в Python

У меня проблема с кодированием переменной пути и ее вставкой в базу данных SQLite . Я попытался решить эту проблему с помощью функции кодирования ("utf-8"), которая не помогла. Затем я использовал функцию unicode (), которая дает мне тип unicode . print type(path) # <type 'unicode'> path =...

82
Написать файл в UTF-8 с помощью FileWriter (Java)?

Однако у меня есть следующий код, я хочу, чтобы он был записан как файл UTF-8 для обработки посторонних символов. Есть ли способ сделать это, нужен ли параметр? Я был бы очень признателен за вашу помощь в этом. Благодарю. try { BufferedReader reader = new BufferedReader(new...

81
Как интернационализировать веб-приложение Java?

Я узнал от Google, что интернационализация - это процесс, с помощью которого я могу заставить свое веб-приложение использовать все языки. Я хочу понять Unicode для процесса интернационализации, поэтому я узнал о Unicode здесь и там . Я могу понять Unicode, как набор символов кодируется в байтах, а...

80
Кодирование FPDF utf-8 (КАК)

Кто-нибудь знает, как установить кодировку в пакете FPDF на utf-8? Или, по крайней мере, ISO-8859-7 (греческий), который поддерживает греческие символы? В основном я хочу создать файл PDF, содержащий греческие символы. Любые предложения помогут. Джордж...

40
Полный набор знаков препинания для Python (не только ASCII)

Есть ли список или библиотека, в которой есть все знаки препинания, с которыми мы обычно сталкиваемся? Обычно я использую string.punctuation, но некоторые знаки препинания не включены в него, например: >>> "'" in string.punctuation True >>> "’" in string.punctuation...