Вопросы с тегом «utf-8»

146
Как я могу преобразовать строку в UTF-8 в C #?

У меня есть строка, которую я получаю из стороннего приложения, и я хотел бы правильно отобразить ее на любом языке, используя C #, на моей Windows Surface. Из-за неправильной кодировки часть моей строки на испанском выглядит так: Acción тогда как это должно выглядеть так: Acción Согласно ответу...

146
PHP: конвертировать любую строку в UTF-8, не зная исходного набора символов, или хотя бы попытаться

У меня есть приложение, которое работает с клиентами со всего мира, и, естественно, я хочу, чтобы все, что входит в мои базы данных, было в кодировке UTF-8. Основная проблема для меня заключается в том, что я не знаю, какой будет кодировка источника какой-либо строки - это может быть из текстового...

137
Разница между UTF-8 и UTF-16?

Разница между UTF-8 и UTF-16? Зачем нам это нужно? MessageDigest md = MessageDigest.getInstance("SHA-256"); String text = "This is some text"; md.update(text.getBytes("UTF-8")); // Change this to "UTF-16" if needed byte[] digest =

135
Юникод символы в URL

В 2010 году вы бы обслуживали URL-адреса, содержащие символы UTF-8, на большом веб-портале? Символы Юникода запрещены согласно RFC на URL (см. Здесь ). Они должны быть закодированы в процентах, чтобы соответствовать стандартам. Тем не менее, моя главная мысль - это обслуживание некодированных...

122
Зачем объявлять Unicode по строке в Python?

Я все еще изучаю питон и сомневаюсь: В python 2.6.x я обычно объявляю кодировку в заголовке файла следующим образом (как в PEP 0263 ) # -*- coding: utf-8 -*- После этого мои строки пишутся как обычно: a = "A normal string without declared Unicode" Но каждый раз, когда я вижу код проекта Python,...

119
Outlook автоматически очищает мои разрывы строк и портит формат электронной почты

Я отправляю электронное письмо, используя структуру dotnet. Вот шаблон, который я использую для создания сообщения: Date of Hire: %HireDate% Annual Salary: %AnnualIncome% Reason for Request: %ReasonForRequest% Name of Voluntary Employee: %FirstName% %LastName% Total Coverage Applied For:...

113
Сериализация объекта как UTF-8 XML в .NET

Правильная утилизация объекта удалена для краткости, но я шокирован, если это самый простой способ кодировать объект как UTF-8 в памяти. Должен быть способ попроще, не так ли? var serializer = new XmlSerializer(typeof(SomeSerializableObject)); var memoryStream = new MemoryStream(); var streamWriter...

113
Предупреждение "несопоставимый символ для кодировки" в Java

В настоящее время я работаю над Java-проектом, который при компиляции выдает следующее предупреждение: /src/com/myco/apps/AppDBCore.java:439: warning: unmappable character for encoding UTF8 [javac] String copyright = "� 2003-2008 My Company. All rights reserved."; Я не уверен, как SO отобразит...

110
Как я могу вывести UTF-8 из Perl?

Я пытаюсь написать сценарий Perl, используя прагму «utf8», и получаю неожиданные результаты. Я использую Mac OS X 10.5 (Leopard) и редактирую с помощью TextMate. Все мои настройки и для моего редактора, и для операционной системы по умолчанию настроены на запись файлов в формате utf-8. Однако,...

110
УСТАНОВИТЬ ИМЕНА utf8 в MySQL?

Я часто вижу что-то подобное в сценариях PHP, использующих MySQL. query("SET NAMES utf8"); Мне никогда не приходилось делать это ни для одного проекта, поэтому у меня есть пара основных вопросов по этому поводу. Это что-то, что делается только с PDO? Если это не специфическая вещь для PDO, то...

110
Как работает «кодировка переменной ширины» UTF-8?

В стандарте unicode достаточно кодовых точек, поэтому вам нужно 4 байта для их хранения. Вот что делает кодировка UTF-32. Тем не менее, кодировка UTF-8 каким-то образом сжимает их в гораздо меньшие пространства, используя так называемое «кодирование переменной ширины». Фактически, ему удается...

109
ruby 1.9: неверная последовательность байтов в UTF-8

Я пишу краулер на Ruby (1.9), который потребляет много HTML с множества случайных сайтов. При попытке извлечь ссылки я решил просто использовать .scan(/href="(.*?)"/i)вместо nokogiri / hpricot (значительное ускорение). Проблема в том, что теперь я получаю много " invalid byte sequence in UTF-8"...

108
Метка порядка байтов портит чтение файлов в Java

Я пытаюсь читать файлы CSV с помощью Java. Некоторые файлы могут иметь отметку порядка байтов в начале, но не все. Когда он присутствует, порядок байтов читается вместе с остальной частью первой строки, что вызывает проблемы со сравнением строк. Есть ли простой способ пропустить отметку порядка...

108
Использование Javascript atob для декодирования base64 неправильно декодирует строки utf-8

Я использую window.atob()функцию Javascript для декодирования строки в кодировке base64 (в частности, содержимого в кодировке base64 из GitHub API). Проблема в том, что я возвращаю символы в кодировке ASCII (например, â¢вместо ™). Как я могу правильно обработать входящий поток в кодировке base64,...

107
Как правильно кодировать символы Unicode в URL?

Я знаю нестандартную схему% uxxxx, но это не кажется разумным выбором, так как схема была отклонена W3C. Несколько интересных примеров: Сердечный персонаж. Если я введу это в свой браузер: http://www.google.com/search?q=♥ Затем скопируйте и вставьте его, я вижу этот URL...

107
UnicodeDecodeError: кодек ascii не может декодировать байт 0xd1 в позиции 2: порядковый номер не в диапазоне (128)

Я пытаюсь работать с очень большим набором данных, в котором есть нестандартные символы. Мне нужно использовать юникод в соответствии со спецификациями работы, но я сбит с толку. (И вполне возможно, что все делаю неправильно.) Я открываю CSV, используя: 15 ncesReader =...