Вопросы с тегом «character-encoding»

Вопросы, которые касаются различных представлений символов и наборов символов, таких как: ASCII, UTF-8, EBCDIC и другие. Часто встречается при перемещении файлов между операционными системами, которые кодируют новые строки с возвратом каретки и / или символами новой строки.

62
Как я могу установить кодировку VIM по умолчанию в UTF-8?

Я хотел бы внести свой вклад в проект с открытым исходным кодом, предоставляющий переведенные строки. Одним из их требований является то, что участники должны использовать UTF-8 в качестве кодировки для PO-файлов. Я использую VIM 7.3 на Linux. Как я могу быть уверен, что кодировка VIM установлена...

50
Неверная фильтрация utf8

У меня есть текстовый файл в неизвестной или смешанной кодировке. Я хочу видеть строки, которые содержат последовательность байтов, которая не является допустимой UTF-8 (путем передачи текстового файла в какую-то программу). Эквивалентно, я хочу отфильтровать строки, которые являются...

48
Как называется символ ^ M?

TexPad создает его. Я знаю, что это под каким-то тупиком. Я просто не могу вспомнить, это имя. Синий символ: Я просто хочу массово удалить их из моего документа. Как вы можете напечатать...

47
эхо-байты в файл

Я пытаюсь подключить Rasberry Pi к некоторому дисплею, используя шину i2c. Для начала я хотел написать что-то вручную, в частности байты, в файл. Как вы пишете конкретные байты в файл? Я уже прочитал это, и я решил, что моя проблема должна быть решена примерно так echo -n -e \x66\x6f\x6f >...

46
Как я могу проверить кодировку текстового файла ... Это действительно, и что это?

У меня есть несколько .htmфайлов, которые открываются в Gedit без каких-либо предупреждений / ошибок, но когда я открываю эти же файлы Jedit, он предупреждает меня о недопустимой кодировке UTF-8 ... В метатеге HTML указано «charset = ISO-8859-1». Jedit допускает Список резервных кодировок и Список...

45
Какая кодировка кодировки используется для имен файлов и путей в Linux?

Зависит ли это от того, какую файловую систему я использую? Например, ext2 / ext3 / ext4, а также что происходит, когда я вставляю один из этих «веселых» компакт-дисков с ISO 9660? Я слышал, что POSIX содержит какие-то спецификации для кодировки имен файлов в кодировке? По сути, мне интересно, если...

31
find (1): как реализован подстановочный знак «звезда» для сбоя некоторых имен файлов?

В файловой системе, где имена файлов находятся в UTF-8, у меня есть файл с ошибочным именем; оно отображается как:, D�sinstallerфактическое имя в соответствии с zsh:, D$'\351'sinstallerLatin1 для Désinstaller, само по себе французское варварство для «удаления». Zsh не совпал бы с этим, [[ $file =~...

27
Как указать символы, используя шестнадцатеричные коды в `grep`?

Этот вопрос был перенесен из Stack Overflow, потому что на него можно ответить в Unix и Linux Stack Exchange. Мигрировал 8 лет назад . Я использую следующую команду для определения диапазона набора символов для шестнадцатеричного кода от 0900 (вместо अ) до 097F (вместо व). Как я могу использовать...

25
Почему некоторые символы отображаются в Chrome как квадраты?

Например, в инструментах разработки я получаю что-то вроде: Некоторые из этих квадратов находятся в конце строк, сначала я думал, что это возврат каретки, но оказалось, что это не так. Кроме того, квадраты появляются после =или >во многих местах, где нет новой строки, и просмотр файла в...

25
Понимание кодировки имени файла Unix

Мне трудно понять, как работает кодировка имени файла. На unix.SE я нахожу противоречивые объяснения. Имена файлов хранятся в виде символов Процитирую другой ответ: Несколько вопросов о кодировке символов файловой системы в Linux. […] Как вы упоминаете в своем вопросе, имя файла UNIX - это просто...

24
tr жалуется на «недопустимую последовательность байтов»

Я новичок в UNIX и использую «Командную строку Mac OS X» Кирка МакЭлхарна, чтобы научить себя некоторым командам. Я пытаюсь использовать trи grepтак, чтобы я мог искать текстовые строки в обычном документе MS-Office Word. $ tr '\r' '\n' < target-file | grep search-string Но все, что он...

24
идентифицировать файлы с не-ASCII или непечатаемыми символами в имени файла

В каталоге размером 80 ГБ с приблизительно 700 000 файлов в имени файла есть имена файлов с неанглийскими символами. Помимо трудоемкого просмотра списка файлов: Простой способ перечислить или иным образом идентифицировать эти имена файлов? Способ создания печатных символов не на английском языке -...

23
Преобразование файла UTF-8 в ASCII (наилучшее усилие)

У меня есть файл в UTF-8, который содержит тексты на нескольких языках. Во многом это имена людей. Мне нужно преобразовать его в ASCII, и мне нужно, чтобы результат выглядел максимально прилично. Есть много способов приблизиться к преобразованию из более широкой кодировки в более узкую. Простейшим...

21
Генерация случайного пароля; почему это не портативный?

Я хочу создать случайный пароль, и я делаю это так: </dev/urandom tr -dc [:print:] | head -c 64 На моем ноутбуке, на котором работает Ubuntu, он производит только печатные символы, как и предполагалось. Но когда я захожу на сервер моей школы, на котором работает Red Hat Enterprise Linux, и...

21
Как изменить кодировку с расширенного ASCII-текста не-ISO, с ограничителями строки CRLF, на UTF-8?

У меня есть текстовый файл: $ file -i x.txt x.txt: text/plain; charset=unknown-8bit $ file x.txt x.txt: Non-ISO extended-ASCII text, with CRLF line terminators И есть некоторые символы, которые неправильно закодированы: trwa³y, sta³y, usuwaæ Как я могу изменить кодировку этого файла на UTF-8? До...

20
Массовое переименование (или правильное отображение) файлов со специальными символами

У меня есть несколько каталогов и подкаталогов, которые содержат файлы со специальными символами, например, этот файл: robbie@phil:~$ ls test�sktest.txt test?sktest.txt Find обнаруживает escape-последовательность: robbie@phil:~$ find test�sktest.txt -ls 424512 4000 -rwxr--r-x 1 robbie robbie...

19
Конвертировать .docx в .pdf с помощью pandoc

Я пытаюсь преобразовать .docx, полученный по почте, в правильный pdf с помощью pandoc (я использую GNU / Linux). У меня есть ошибка, связанная с кодировкой символов: $ pandoc file.docx -o file.pdf pandoc: Cannot decode byte '\x87': Data.Text.Encoding.decodeUtf8: Invalid UTF-8 stream Я попытался...

18
Кодировки символов, поддерживаемые more, cat и less

У меня есть текстовый файл в следующем формате file: Текст ISO-8859, с ограничителями строки CRLF Этот файл содержит текст на французском языке с акцентами. Моя оболочка способна отображать акцент и emacsв режиме консоли способна правильно отображать эти акценты. Моя проблема в том more, catи...

18
Команда для получения списка символов в данном классе символов в текущей локали

Что может быть способ , чтобы получить список всех символов в заданном классе символов (как blank, alpha, digit...) в текущей локали. Например, LC_ALL=en_GB.UTF-8 that-command blank в идеале в моей системе Debian должно отображаться что-то вроде: 09 U+0009 HORIZONTAL TAB 20 U+0020 SPACE e1 9a 80...