Мне приходится иметь дело с файлом, который имеет много невидимых управляющих символов, таких как «справа налево» или «не присоединяемый с нулевой шириной», пробелами, отличными от нормального пробела и т. Д., И у меня возникают проблемы с этим.
Теперь я хотел бы как-то просмотреть все буквы в данном файле, букву за буквой (я хотел бы сказать «слева направо», но я, к сожалению, имею дело с языком справа налево) , как кодовые точки Юникода, используя только основные инструменты Баш (как vi
, less
, cat
...). Возможно ли это как-то?
Я знаю, что могу отобразить файл в шестнадцатеричном формате hexdump
, но мне придется пересчитать кодовые точки. Я действительно хочу увидеть реальные кодовые точки Unicode, чтобы я мог найти их в Google и выяснить, что происходит.
редактировать: я добавлю, что я не хочу перекодировать его в другую кодировку (потому что это то, что я узнаю в Интернете). У меня есть файл в UTF8, и это нормально. Я просто хочу знать точные кодовые точки всех букв.
Мне понадобился код для некоторых общих смайликов, и я придумал это:
какие отпечатки
это кодовая точка для "УЛЫБАЮЩЕГО ЛИЦА С УЛЫБАЮЩИМИСЯ ГЛАЗАМИ" .
источник
Вдохновленный ответом Neftas , вот несколько более простое решение, которое работает со строками, а не с одним символом:
Я также создал скрипт Bash, который читает из стандартного ввода или из файла и отображает исходный текст вместе со значениями Unicode:
источник