Вопросы с тегом «unicode»

Unicode - это стандарт кодирования, представления и обработки текста с целью поддержки всех символов, необходимых для письменного текста, включая все системы письма, технические символы и знаки препинания.

1356
Почему разрешено выполнение кода Java в комментариях с определенными символами Unicode?

Следующий код производит вывод "Hello World!" (нет, на самом деле, попробуйте). public static void main(String... args) { // The comment below is not a typo. // \u000d System.out.println("Hello World!"); } Причина этого заключается в том, что компилятор Java анализирует символ Unicode \u000dкак...

1301
UnicodeEncodeError: кодек 'ascii' не может кодировать символ u '\ xa0' в позиции 20: порядковый номер не в диапазоне (128)

У меня проблемы с работой символов юникода из текста, полученного с разных веб-страниц (на разных сайтах). Я использую BeautifulSoup. Проблема в том, что ошибка не всегда воспроизводима; иногда он работает с некоторыми страницами, а иногда он бросает a UnicodeEncodeError. Я перепробовал практически...

1241
Какие символы можно использовать для треугольника вверх / вниз (стрелка без основы) для отображения в HTML?

Я ищу символ HTML или ASCII, представляющий собой треугольник, направленный вверх или вниз, чтобы я мог использовать его в качестве переключателя. Я нашел ↑ ( ↑) и ↓ ( ↓) - но у них узкий стебель. Я ищу только HTML-стрелку...

833
Что символ «b» делает перед строковым литералом?

Видимо, следующий допустимый синтаксис: my_string = b'The string' Я бы хотел знать: Что означает этот bсимвол перед строкой? Каковы последствия его использования? Каковы подходящие ситуации, чтобы использовать это? Я нашел связанный вопрос прямо здесь, на SO, но этот вопрос касается PHP, и в нем...

742
std :: wstring VS std :: string

Я не могу понять разницу между std::stringи std::wstring. Я знаю, wstringподдерживает широкие символы, такие как символы Юникода. У меня есть следующие вопросы: Когда я должен использовать std::wstringболее std::string? Может ли std::stringсодержать весь набор символов ASCII, включая специальные...

694
Как работает текст Zalgo?

На этот вопрос есть ответы на Переполнение стека на русском : Как работает текст «Залго»? Я видел странно отформатированный текст под названием Zalgo, как показано ниже, на различных форумах. На это немного раздражает взгляд, но это действительно беспокоит меня, потому что это подрывает мое...

652
Что именно делают строковые флаги «u» и «r», и что такое необработанные строковые литералы?

Задавая этот вопрос , я понял, что мало что знаю о необработанных строках. Для кого-то, претендующего на звание тренера Джанго, это отстой. Я знаю, что такое кодировка, и я знаю, что u''делает одна, поскольку я получаю Unicode. Но что именно делает r''? К какой строке это приводит? И прежде всего,...

597
Проблема кодирования изображений в Твиттере [закрыто]

В настоящее время этот вопрос не очень подходит для нашего формата вопросов и ответов. Мы ожидаем, что ответы будут подтверждены фактами, ссылками или опытом, но этот вопрос, скорее всего, вызовет дебаты, споры, опрос или расширенное обсуждение. Если вы считаете, что этот вопрос можно улучшить и,...

557
Почему современный Perl по умолчанию избегает UTF-8?

Интересно, почему большинство современных решений, построенных с использованием Perl, не поддерживают UTF-8? по умолчанию . Я понимаю, что для основных скриптов Perl существует много проблем, которые могут сломать вещи. Но, с моей точки зрения, в 21 - м веке, большие новые проекты (или проекты с...

550
UnicodeDecodeError: кодек 'charmap' не может декодировать байт X в позиции Y: символ отображается на <undefined>

Я пытаюсь заставить программу на Python 3 выполнять некоторые манипуляции с текстовым файлом, заполненным информацией. Однако при попытке прочитать файл я получаю следующую ошибку: Traceback (most recent call last): File "SCRIPT LOCATION", line NUMBER, in <module> `text = file.read()` File...

526
Лучший способ конвертировать текстовые файлы между наборами символов?

Какой самый быстрый и простой инструмент или метод для преобразования текстовых файлов между наборами символов? В частности, мне нужно конвертировать из UTF-8 в ISO-8859-15 и наоборот. Все идет: одна строка на вашем любимом языке сценариев, инструменты командной строки или другие утилиты для ОС,...

507
Каков наилучший способ удалить акценты в строке Unicode Python?

У меня есть строка Unicode в Python, и я хотел бы удалить все акценты (диакритические знаки). Я нашел в Интернете элегантный способ сделать это на Java: преобразовать строку Unicode в ее длинную нормализованную форму (с отдельным символом для букв и диакритических знаков) удалить все символы, у...

487
UTF-8, UTF-16 и UTF-32

Каковы различия между UTF-8, UTF-16 и UTF-32? Я понимаю, что все они будут хранить Unicode, и что каждый использует различное количество байтов для представления символа. Есть ли преимущество выбора одного над...

474
Сохранение текстов utf-8 в json.dumps как UTF8, а не как escape-последовательность

образец кода: >>> import json >>> json_string = json.dumps("ברי צקלה") >>> print json_string "\u05d1\u05e8\u05d9 \u05e6\u05e7\u05dc\u05d4" Проблема: она не читается человеком. Мои (умные) пользователи хотят проверять или даже редактировать текстовые файлы с помощью дампов...