Вопросы с тегом «unicode»

441
Лучший способ перевернуть строку

Я просто должен был написать функцию обратного преобразования строк в C # 2.0 (т.е. LINQ недоступен) и придумал это: public string Reverse(string text) { char[] cArray = text.ToCharArray(); string reverse = String.Empty; for (int i = cArray.Length - 1; i > -1; i--) { reverse += cArray[i]; }...

412
UnicodeDecodeError при чтении CSV-файла в Pandas с Python

Я запускаю программу, которая обрабатывает 30 000 похожих файлов. Случайное число из них останавливается и выдает эту ошибку ... File "C:\Importer\src\dfman\importer.py", line 26, in import_chr data = pd.read_csv(filepath, names=fields) File "C:\Python33\lib\site-packages\pandas\io\parsers.py",...

408
В чем разница между ASCII и Unicode?

В чем точная разница между Unicode и ASCII? Всего ASCII имеет 128 символов (256 в расширенном наборе). Есть ли какие-либо спецификации размера для символов

395
Что такое Юникод, UTF-8, UTF-16?

Что является основой для Unicode и зачем нужен UTF-8 или UTF-16? Я исследовал это в Google и искал здесь, но мне это не ясно. В VSS при сравнении файлов иногда появляется сообщение о том, что два файла имеют разные UTF. Почему это так? Пожалуйста, объясните в простых...

360
Почему 2+ 40 равно 42?

Я был озадачен, когда коллега показал мне эту строку с предупреждением JavaScript 42. alert(2+ 40); Выполнить фрагмент кодаСкрыть результатыРазвернуть фрагмент Быстро выясняется, что то, что выглядит как знак минус, на самом деле является загадочным символом Юникода с явно различной семантикой. Это...

359
Как я grep для всех не-ASCII символов?

У меня есть несколько очень больших файлов XML, и я пытаюсь найти строки, которые содержат символы не ASCII. Я пробовал следующее: grep -e "[\x{00FF}-\x{FFFF}]" file.xml Но это возвращает каждую строку в файле, независимо от того, содержит ли строка символ в указанном диапазоне. У меня неправильный...

348
Как найти длину строки в R

Как найти длину строки (количество символов в строке), не разбивая ее на R? Я знаю, как найти длину списка, но не строки. А как насчет строк Unicode? Как найти длину (в байтах) и количество символов (руны, символы) в строке Unicode? Связанный вопрос: Как найти «реальное» количество символов в...

317
Как использовать символы Юникода в командной строке Windows?

У нас есть проект в Team Foundation Server (TFS), в котором есть не английский символ (š). При попытке написать несколько вещей, связанных со сборкой, мы столкнулись с проблемой - мы не можем передать букву š инструментам командной строки. Командная строка или что-то еще портит ее, и утилита tf.exe...

295
Как исправить TypeError: Unicode-объекты должны быть закодированы перед хэшированием?

У меня есть эта ошибка: Traceback (most recent call last): File "python_md5_cracker.py", line 27, in <module> m.update(line) TypeError: Unicode-objects must be encoded before hashing когда я пытаюсь выполнить этот код в Python 3.2.2 : import hashlib, sys m = hashlib.md5() hash = "" hash_file...

291
UnicodeDecodeError: кодек «utf8» не может декодировать байт 0x9c

У меня есть сервер сокетов, который должен принимать действительные символы UTF-8 от клиентов. Проблема в том, что некоторые клиенты (в основном хакеры) отправляют через них все неправильные данные. Я могу легко отличить подлинного клиента, но я записываю в файлы все отправленные данные, чтобы...

276
Как получить строковые объекты вместо Unicode из JSON?

Я использую Python 2 для анализа JSON из текстовых файлов в кодировке ASCII . При загрузке этих файлов с помощью jsonили simplejson, все мои строковые значения преобразуются в объекты Unicode вместо строковых объектов. Проблема в том, что я должен использовать данные с некоторыми библиотеками,...

261
Почему этот код, написанный в обратном порядке, печатает «Hello World!»

Вот код, который я нашел в интернете: class M‮{public static void main(String[]a‭){System.out.print(new char[] {'H','e','l','l','o',' ','W','o','r','l','d','!'});}} Этот код печатается Hello World!на экране; Вы можете видеть, что это бежит здесь . Я ясно вижу public static void mainнаписанное, но...

245
Заменить не-ASCII символы одним пробелом

Мне нужно заменить все не-ASCII (\ x00- \ x7F) символы пробелом. Я удивлен, что это не так просто в Python, если я что-то упустил. Следующая функция просто удаляет все не-ASCII символы: def remove_non_ascii_1(text): return ''.join(i for i in text if ord(i)<128) И этот заменяет не-ASCII символы...

241
Python: удаление \ xa0 из строки?

В настоящее время я использую Beautiful Soup для анализа HTML-файла и вызовов get_text(), но мне кажется, что у меня осталось много \ xa0 Unicode, представляющих пробелы. Есть ли эффективный способ удалить их все в Python 2.7 и заменить их пробелами? Я думаю, что более общий вопрос будет, есть ли...

239
Сколько байтов занимает один символ Unicode?

Я немного запутался в кодировках. Насколько я знаю, старые символы ASCII занимали один байт на символ. Сколько байтов требуется для символа Юникода? Я предполагаю, что один символ Unicode может содержать все возможные символы из любого языка - я прав? Так сколько байт нужно для каждого символа? А...

235
Как я могу изменить кодировку файла с помощью vim?

Я привык использовать vim для изменения концов строк файла: $ file file file: ASCII text, with CRLF line terminators $ vim file :set ff=mac :wq $ file file file: ASCII text, with CR line terminators Можно ли использовать аналогичный процесс для изменения кодировки Unicode файла? Я пытаюсь...