Обратимая утилита шестнадцатеричного дампа (иначе `xxd`)

12

xxdэто утилита в комплекте vim, которая использовалась для кодирования ответов на вопросы кода гольф на этом сайте. Он преобразует двоичный файл в шестнадцатеричный дамп и обратно.

Реализуйте команды xxdи xxd -rна языке (ах) по вашему выбору. Оценка основана на длине символов / байтов a) вашей программы (программ) и b) любого аргумента (ов) командной строки, необходимого для переключения комбинированной программы между режимами (они не должны быть -r). Как и в гольфе, низкие оценки лучше.

  • Для двух отдельных программ: прямой код + обратный код
  • Для комбинированной программы: комбинированный код + сумма ( прямые аргументы ) + сумма ( обратные аргументы ) - 2

Спецификация выбранного xxdподмножества

Команда forward ( например xxd ) принимает 0 ≤ n ≤ 2 16 байт от стандартного ввода и генерирует строки ceil ( n / 16) стандартного вывода в следующем формате (все шестнадцатеричные цифры в нижнем регистре):

  • Смещение первого закодированного байта (строка формата "%07x:"); заканчивается в"0"
  • Не более 16 шестнадцатеричных кодированных байтов, сгруппированных в пары (строка формата " %02x"для четных байтов, "%02x"для нечетных байтов) и дополненных справа пробелами до 42 символов
  • Закодированные байты интерпретируются как символы ASCII, значения не между 0x20 и 0x7e ( '\40'и '\176') включительно становятся"."
  • Новая строка ( "\n"; "\r\n"разрешено, когда стандартный вывод находится в двоичном режиме)

Минимальная незакрытая реализация C:

#include <stdio.h>
int main() {
    unsigned char L[16];
    int t = 0, n, i, s;

    for (; (n = fread(L, 1, 16, stdin)); t += n) {
        printf("%07x:", t);
        s = 42;
        for (i = 0; i < n; i++)
            s -= printf(i & 1 ? "%02x" : " %02x", L[i]);
        printf("%*s", s, "");
        for (i = 0; i < n; i++)
            putchar(L[i] > '\37' && L[i] < '\177' ? L[i] : '.');
        printf("\n");
    }

    return 0;
}

Команда реверса ( например, xxd -r ) принимает любые неизмененные выходные данные команды перенаправления (при условии правильного ввода для этой команды) и производит этот исходный ввод.

Пример использования

$ xxd < /dev/null | wc -c
0
$ php -r 'echo join(range("\0",~"\0"));' | xxd
0000000: 0001 0203 0405 0607 0809 0a0b 0c0d 0e0f  ................
0000010: 1011 1213 1415 1617 1819 1a1b 1c1d 1e1f  ................
0000020: 2021 2223 2425 2627 2829 2a2b 2c2d 2e2f   !"#$%&'()*+,-./
0000030: 3031 3233 3435 3637 3839 3a3b 3c3d 3e3f  0123456789:;<=>?
0000040: 4041 4243 4445 4647 4849 4a4b 4c4d 4e4f  @ABCDEFGHIJKLMNO
0000050: 5051 5253 5455 5657 5859 5a5b 5c5d 5e5f  PQRSTUVWXYZ[\]^_
0000060: 6061 6263 6465 6667 6869 6a6b 6c6d 6e6f  `abcdefghijklmno
0000070: 7071 7273 7475 7677 7879 7a7b 7c7d 7e7f  pqrstuvwxyz{|}~.
0000080: 8081 8283 8485 8687 8889 8a8b 8c8d 8e8f  ................
0000090: 9091 9293 9495 9697 9899 9a9b 9c9d 9e9f  ................
00000a0: a0a1 a2a3 a4a5 a6a7 a8a9 aaab acad aeaf  ................
00000b0: b0b1 b2b3 b4b5 b6b7 b8b9 babb bcbd bebf  ................
00000c0: c0c1 c2c3 c4c5 c6c7 c8c9 cacb cccd cecf  ................
00000d0: d0d1 d2d3 d4d5 d6d7 d8d9 dadb dcdd dedf  ................
00000e0: e0e1 e2e3 e4e5 e6e7 e8e9 eaeb eced eeef  ................
00000f0: f0f1 f2f3 f4f5 f6f7 f8f9 fafb fcfd feff  ................
$ xxd <<< 'The quick brown fox jumps over the lazy dog.'
0000000: 5468 6520 7175 6963 6b20 6272 6f77 6e20  The quick brown 
0000010: 666f 7820 6a75 6d70 7320 6f76 6572 2074  fox jumps over t
0000020: 6865 206c 617a 7920 646f 672e 0a         he lazy dog..
$ xxd <<< 'The quick brown fox jumps over the lazy dog.' | xxd -r
The quick brown fox jumps over the lazy dog.
PleaseStand
источник
Должен ли режим реверса игнорировать некорректные символы ASCII? (FWIW фактический xxd делает, что весьма полезно).
Питер Тейлор
@PeterTaylor: обратный режим должен правильно работать только с немодифицированными шестнадцатеричными дампами (начиная с 0000000, шестнадцатеричными строчными буквами, 16 байтами во всех строках, кроме последней, без пробелов и т. Д. ), И проверка ввода не требуется. Тем не менее, вероятно, имеет смысл игнорировать 16-символьный столбец «ASCII» справа, потому что его нельзя использовать для различения «». и непечатные символы.
Пожалуйста, постой

Ответы:

3

Perl 122 + 54 = 176 122 + 45 = 167

Прямой скрипт:

$/=$,;for(<>=~/.{1,16}/gs){$h="";$h.=sprintf"%*s%02x",++$m%2,"",ord for/./gs;
s/[^ -~]/./g;printf"%06x0:%-42s",$n++,$h;say}

И обратный сценарий:

/:(.+?)  /,print map{chr hex}$1=~/\w\w/gfor<>

(Это интересно; есть все виды неясных ошибок, которые могут отображаться в обратном сценарии в зависимости от ввода, если вы не будете осторожны.)

Хлебница
источник
Поскольку $1известно, что он содержит только шестнадцатеричные цифры и пробелы, вы не можете использовать /\w\w/вместо /[0-9a-f]{2}/?
Нил
$1содержит много вещей, кроме шестнадцатеричных цифр и пробелов.
хлебница
В этом примере я вижу только шестнадцатеричные цифры и пробелы между : и ``.
Нил
(Кто-нибудь знает, как генерировать два моноширинных пространства в комментариях к уценке?)
Нил
@ Нил Неважно, я неправильно прочитал свой собственный код. Я не помню сейчас, почему я не просто использовал /\w\w/. Кажется настолько очевидным, что мне кажется, что у меня была причина, но я ее не вижу. Мое лучшее предположение состоит в том, что это была задержка от версии, которая пыталась избежать требования начального регулярного выражения.
хлебница