Вопросы с тегом «unicode»

101
Есть ли ошибки с использованием unicode_literals в Python 2.6?

У нас уже есть код, работающий под Python 2.6. Чтобы подготовиться к Python 3.0, мы начали добавлять: from __future__ импортировать unicode_literals в наши .pyфайлы (по мере их изменения). Мне интересно, делал ли кто-нибудь еще это и столкнулся с какими-либо неочевидными ошибками (возможно,...

101
Как я могу удалить символы, отличные от ASCII, но оставить точки и пробелы с помощью Python?

Я работаю с файлом .txt. Мне нужна строка текста из файла без символов, отличных от ASCII. Однако я хочу оставить пробелы и точки. В настоящее время я их тоже снимаю. Вот код: def onlyascii(char): if ord(char) < 48 or ord(char) > 127: return '' else: return char def get_my_string(file_path):...

100
UnicodeDecodeError при перенаправлении в файл

Я запускаю этот фрагмент дважды, в терминале Ubuntu (кодировка установлена ​​на utf-8), один раз с, ./test.pyа затем с помощью ./test.py >out.txt: uni = u"\u001A\u0BC3\u1451\U0001D10C" print uni Без перенаправления выводит мусор. При перенаправлении я получаю UnicodeDecodeError. Может ли...

98
Как в Python отсортировать строки Unicode по алфавиту?

Python по умолчанию сортирует по байтовому значению, что означает, что é идет после z и других не менее забавных вещей. Как лучше всего сортировать по алфавиту в Python? Есть ли для этого библиотека? Я ничего не нашел. Предпочтительно сортировка должна иметь языковую поддержку, чтобы понимать, что...

97
Как декодировать escape-последовательности Unicode, такие как «\ u00ed», в правильные символы в кодировке UTF-8?

Есть ли в PHP функция, которая может декодировать escape-последовательности Unicode, такие как " \u00ed" to " í" и все другие подобные случаи? Я нашел здесь аналогичный вопрос, но, похоже, он не работает....

94
Как сравнить «похожие» символы Юникода?

Я попадаю в удивительную проблему. Я загрузил текстовый файл в свое приложение, и у меня есть логика, которая сравнивает значение, имеющее µ. И я понял, что даже если тексты одинаковые, значение сравнения ложное. Console.WriteLine("μ".Equals("µ")); // returns false...

92
Эквивалент Java JavaScript encodeURIComponent, который производит идентичный вывод?

Я экспериментировал с различными фрагментами кода Java, пытаясь придумать что-то, что будет кодировать строку, содержащую кавычки, пробелы и «экзотические» символы Unicode, и производить вывод, идентичный функции JavaScript encodeURIComponent . Моя тестовая строка на пытки: "А" Б ± " Если я введу...

91
Что случилось с этими комбинированными символами Unicode и как их отфильтровать?

กิิิิิิิิิิิิิิิิิิิิ ก้้้้้้้้้้้้้้้้้้้้ ก็็็็็็็็็็็็็็็็็็็็ ก็็็็็็็็็็็็็็็็็็็็ กิิิิิิิิิิิิิิิิิิิิ ก้้้้้้้้้้้้้้้้้้้้ ก็็็็็็็็็็็็็็็็็็็็ กิิิิิิิิิิิิิิิิิิิิ ก้้้้้้้้้้้้้้้้้้้้ กิิิิิิิิิิิิิิิิิิิิ ก้้้้้้้้้้้้้้้้้้้้ กิิิิิิิิิิิิิิิิิิิิ ก้้้้้้้้้้้้้้้้้้้้...

90
sqlite3.ProgrammingError: нельзя использовать 8-битные строки байтов, если вы не используете text_factory, которая может интерпретировать 8-битные строки байтов.

Используя SQLite3 в Python, я пытаюсь сохранить сжатую версию фрагмента HTML-кода UTF-8. Код выглядит так: ... c = connection.cursor() c.execute('create table blah (cid integer primary key,html blob)') ... c.execute('insert or ignore into blah values (?, ?)',(cid, zlib.compress(html))) В этот...

89
Кодировка символов JSON - хорошо ли UTF-8 поддерживается браузерами или мне следует использовать числовые escape-последовательности?

Я пишу веб-сервис, который использует json для представления своих ресурсов, и я немного зациклился на том, как лучше всего закодировать json. Читая json rfc ( http://www.ietf.org/rfc/rfc4627.txt ), становится ясно, что предпочтительной кодировкой является utf-8. Но RFC также описывает механизм...

89
Отображение символов Юникода в HTML

Я хочу просто отобразить символы галочки (✔) и крестика (✘) на HTML-странице, но они отображаются либо как прямоугольник, либо как кружок ✠»- очевидно, что-то связано с кодировкой. Я установил метатег для отображения utf-8, но, очевидно, что-то мне не хватает. <meta http-equiv="Content-Type"...

88
Действительно хороший, плохой пример тестовых данных UTF-8 [закрыто]

Закрыто. Этот вопрос не соответствует рекомендациям по переполнению стека . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме Stack Overflow. Закрыт 3 года назад . Уточните этот вопрос Итак, у нас есть шпаргалка по XSS для проверки...

88
Как заменить непечатаемые символы Unicode в Java?

Следующие символы заменят управляющие символы ASCII (сокращение для [\x00-\x1F\x7F]): my_string.replaceAll("\\p{Cntrl}", "?"); Следующее заменит все непечатаемые символы ASCII (сокращение для [\p{Graph}\x20]), включая символы с диакритическими знаками: my_string.replaceAll("[^\\p{Print}]", "?");...

87
Актуален ли ТЧАР?

Я новичок в программировании для Windows, и после прочтения книги Петцольда мне интересно: это еще хорошая практика , чтобы использовать TCHARтип и _T()функцию , чтобы объявить строки или если я должен просто использовать wchar_tи L""строки в новом коде? Я буду ориентироваться только на Windows...