Вопросы с тегом «unicode»

16

Как я могу преобразовать персидские цифры в UTF-8 в европейские цифры в ASCII?

В персидских цифрах ۰۱۲۳۴۵۶۷۸۹эквивалентно 0123456789европейским цифрам. Как я могу конвертировать персидское число (в UTF-8) в ASCII? Например, я хочу ۲۱стать

bash unicode conversion

15

UTF 8 имен файлов?

В операционных системах на основе Unix допустимы имена файлов utf6? Если это так, мне нужно сделать что-то особенное, чтобы записать файл на диск. Позвольте мне объяснить, что я надеюсь сделать. Я пишу приложение, которое будет передавать файл через ftp в удаленную систему, но имя файла динамически...

linux filenames unicode

15

Получить ширину отображения строки символов

Что было бы наиболее близко к переносимому способу получения ширины дисплея (по крайней мере, на терминале (тот, который отображает символы в текущей локали с правильной шириной)) строки символов из сценария оболочки. В первую очередь меня интересует ширина неконтролирующих символов, но...

shell-script unicode

15

Не можете использовать `cut -c` (` --characters`) с UTF-8?

Команда cutимеет опцию -cдля работы с символами вместо байтов с опцией -b. Но это, похоже, не работает, в en_US.UTF-8локали: Второй байт дает второй символ ASCII (который точно так же кодируется в UTF-8): $ printf 'ABC' | cut -b 2 B но не дает второго из трех греческих не-ASCII символов в локали...

text-processing character-encoding unicode cut

14

grep: Найти все строки, содержащие японские кандзи

В огромном текстовом файле UTF-8 я хочу показать все строки, которые содержат японские кандзи . Какое grep(или другое) выражение это делает? Если я не ошибаюсь, кандзи - это символы между \u4e00и \u4dbf. Мне не нужно показывать канас , но показ их тоже не будет большой...

grep unicode

14

Как можно вводить символы Unicode в терминал KDE Konsole с рабочего стола Gnome?

Я использую Ubuntu. В 'gnome-terminal' я могу набирать кодовые точки Unicode, сначала набрав Ctrl-Shift-u, а затем шестнадцатеричное значение Codepoint, например. C-S-u 2468производит ⑨ konsole, мой предпочтительный терминал, не имеет этой функции CSu (гном) .. Есть ли какой-нибудь эквивалентный...

kde keyboard unicode konsole input-method

14

iconv Недопустимая последовательность ввода - почему?

При попытке преобразовать текстовый файл в его ASCII-эквивалент я получаю сообщение об ошибке iconv: illegal input sequence at position. Я использую команду iconv -f UTF-8 -t ascii//TRANSLIT file Оскорбительный персонаж есть æ. Сам текстовый файл присутствует здесь . Почему это говорит о...

text-processing character-encoding unicode

13

Может ли vim отображать только символы ASCII и обрабатывать другие байты как двоичные данные?

Я уже знаю vim -b, однако, в зависимости от используемой локали, он отображает многобайтовые символы (например, UTF-8) в виде отдельных букв. Как я могу попросить vimотображать только печатные символы ASCII и обрабатывать остальные как двоичные данные, независимо от...

vim character-encoding unicode binary ascii

12

Как сделать так, чтобы символы юникода и шрифты истинного типа работали в xterm / uxterm?

Я хотел бы использовать шрифт TrueType в xterm / uxterm (версия 278), но у меня возникают проблемы с символами Unicode (например, é хорошо отображается, поэтому я думаю, что это не отключенный utf8 или проблема локали): $ echo -e "\xE2\x98\xA0" дает мне квадрат вместо ☠ со следующим конфигом:...

fonts xterm unicode ttf

12

Как напечатать имена символов Unicode для входной строки?

Я хотел бы иметь возможность бежать unicode-names 'abç' и увидеть соответствующие имена символов Unicode: LATIN SMALL LETTER A LATIN SMALL LETTER B LATIN SMALL LETTER C WITH CEDILLA Печать строки в виде серии имен символов Unicode будет полезна в нескольких случаях: Различают легко запутанные...

command-line unicode

11

поддержка кодировки utf-8 с помощью lpr

При попытке отправить текстовый файл на принтер через lprс xterm, содержание было испорчено до неузнаваемости, причиной которого была в конечном счете восходит к кодированию файла. Если я вместо этого обработаю текст с помощью iconv(например, iconv -f utf-8 -t ascii//TRANSLIT), то файл печатается...

cups character-encoding unicode lpr

11

UTF8 математические символы и раскладка клавиатуры / ввод

Я хотел бы использовать математические символы UTF8 при наборе одного списка , другого списка . Я нашел что-то под названием ComposeKey . К сожалению, это не распространяется на омегу, тэту, стрелку вправо и т. Д. Я использую KDE, я пробовал глобальные ярлыки, но, похоже, не работает. Как настроить...

xorg kde keyboard keyboard-layout unicode

11

Как узнать, какие кодовые точки Unicode определены в файле TTF?

Мне нужно автоматизировать процесс проверки того, какие символы Unicode имеют действительные глифы, определенные для них в файле шрифтов True Type. Как мне это делать? Кажется, я не могу найти информацию о том, как понять числа, которые я получаю, когда открываю файл .ttf в текстовом...

fonts unicode ttf

10

Как я могу определить странного персонажа?

Я пытаюсь определить странный символ, который я нашел в файле, с которым я работаю: $ cat file � $ od file 0000000 005353 0000002 $ od -c file 0000000 353 \n 0000002 $ od -x file 0000000 0aeb 0000002 Файл использует кодировку ISO-8859 и не может быть преобразован в UTF-8: $ iconv -f ISO-8859 -t...

character-encoding unicode

10

Определите, сколько Unicode поддерживает мой терминал, даже через экран

Вот проблема: я хочу уметь различать, способен ли мой терминал поддерживать приличный юникод или нет, для того чтобы использовать некоторые символы или нет, во многом как взгляды, которые иногда используют цвета, а другие подчеркивают. Мотивация возникает из-за того, что в любом виртуальном...

linux terminal tty unicode

10

Куда делась строка `uniq` или` sort -u` с некоторыми символами юникода?

Что происходит в следующем фрагменте кода? Я не получаю ожидаемый результат. Я бы подумал, что это ошибка, но это происходит для 2 разных программ (uniq и sort), поэтому я подозреваю, что это как-то связано ... ну, я не знаю, что ... отсюда вопрос. Первые 3 (из 4) примеров работают, но четвертый не...

text-processing sort locale unicode uniq

10

Обработка файла, который начинается с спецификации (FF FE)

Я получил файл .csv с FF FEспецификацией: $ head -n1 dotan.csv | hd 00000000 ff fe 41 00 64 00 20 00 67 00 72 00 6f 00 75 00 |..A.d. .g.r.o.u.| При использовании awkдля анализа я получаю кучу нулевых байтов, что, как я подозреваю, связано с порядком байтов. Как я могу поменять порядок байтов в этом...

text-processing character-encoding unicode

10

Как преобразовать текстовые файлы UTF-8 в верхний регистр в bash?

У меня есть несколько UTF-8 .txt файлов, которые я хотел бы преобразовать в верхний регистр. Если бы это был просто ASCII, я мог бы использовать: tr [:lower:] [:upper:] Но так как я работаю с диакритическими знаками и прочим, это, похоже, не работает. Я думаю, это может сработать, если я установлю...

locale unicode text tr

10

Укажите кодировку с помощью libreoffice --convert-to csv

Файлы Excel могут быть преобразованы в CSV с помощью: $ libreoffice --convert-to csv --headless --outdir dir file.xlsx Кажется, все работает нормально. Кодировка, однако, настроена на что-то шаткое. Вместо UTF-8 mdash (-), который я получаю, если я делаю «сохранить как» вручную из LibreOffice Calc,...

character-encoding unicode conversion libreoffice

9

Как изменить шрифт консоли bash для отображения символов UTF-8

У меня проблемы с отображением символов UTF-8 на bash. Я пытался извлечь некоторые заархивированные файлы, которые содержали акцентированные символы в их именах, и я получал ошибку недопустимых многобайтовых символов. Я создал .bash_profileс этим: export LANG=en_US.UTF-8 export LOCALE=UTF-8 Это...

bash unicode