На что мне положиться lbzip2 или pbzip2?

10

Поскольку bzip2 утверждает, что сжимает лучше всего (по размеру), я решил использовать его. Работающий сервер может предлагать 24 (виртуальных) процессора (4 реальных X5650 при 2,67 ГГц) - и поэтому я решил поискать параллельные варианты.
Используя debian stable- извините, но я нашел лучшие совпадения здесь в Askubuntu - я решил присмотреться pbzip2и lbzip2.
Но что выбрать? На самом деле стабильная pbzip2версия 1.1.1-1и lbzip2версия 0.23-1. Это может косметически иметь тенденцию pbzip2- но lbzip2говорит, что это даже на одноядерных компьютерах быстрее. С другой стороны, pbzip2претендует на полную совместимость с bzip2 v1.0.2.
Кроме того, у меня есть некоторые временные значения большой локальной работы:
Использованиеlbzip2

Command being timed: "tar -cjf /tmp/mapleTAsicherung.lbzip2.tar /bin /etc /lib /lib32 /opt /sbin /selinux /usr"
    User time (seconds): 2134.32
    System time (seconds): 39.24
    Percent of CPU this job got: 2099%
    Elapsed (wall clock) time (h:mm:ss or m:ss): 1:43.51
    Average shared text size (kbytes): 0
    Average unshared data size (kbytes): 0
    Average stack size (kbytes): 0
    Average total size (kbytes): 0
    Maximum resident set size (kbytes): 1509088
    Average resident set size (kbytes): 0
    Major (requiring I/O) page faults: 0
    Minor (reclaiming a frame) page faults: 1054467
    Voluntary context switches: 153901
    Involuntary context switches: 235285
    Swaps: 0
    File system inputs: 0
    File system outputs: 3460632
    Socket messages sent: 0
    Socket messages received: 0
    Signals delivered: 0
    Page size (bytes): 4096
    Exit status: 0  

С помощью pbzip2

    Command being timed: "tar -cjf /tmp/mapleTAsicherung.pbzip2.tar /bin /etc /lib /lib32 /opt /sbin /selinux /usr"
    User time (seconds): 3158.18
    System time (seconds): 59.80
    Percent of CPU this job got: 2095%
    Elapsed (wall clock) time (h:mm:ss or m:ss): 2:33.56
    Average shared text size (kbytes): 0
    Average unshared data size (kbytes): 0
    Average stack size (kbytes): 0
    Average total size (kbytes): 0
    Maximum resident set size (kbytes): 1436320
    Average resident set size (kbytes): 0
    Major (requiring I/O) page faults: 0
    Minor (reclaiming a frame) page faults: 477683
    Voluntary context switches: 151326
    Involuntary context switches: 339246
    Swaps: 0
    File system inputs: 0
    File system outputs: 3460536
    Socket messages sent: 0
    Socket messages received: 0
    Signals delivered: 0
    Page size (bytes): 4096
    Exit status: 0

Что следует использовать? Каковы основные различия? На данный момент я склоняюсь к lbzip2.

Бастиан Эбелинг
источник
1
Краткое примечание: файлы, сжатые обычным bzip2, не увидят повышения производительности при распаковке с помощью pbzip2. Однако pbzip2 архивирует обратно совместимые - они могут быть распакованы с помощью однопоточной или параллельной утилиты.
STW

Ответы:

11

Вот основная идея, как их оценить.

Возьмите большой тарбол, с которым вы обычно работаете. Сожмите его с помощью bzip2, pbzip2, lbzip2. Измерьте время (настенные часы) и сохраните все результаты в разных файлах. Это даст вам три раза и три размера файла.

Затем выполните итерацию по всем трем выходным файлам (т. Е. Выводам сжатия bzip2, pbzip2, lbzip2) и распакуйте каждый из них всеми тремя утилитами (bzip2, pbzip2 и lbzip2). Это даст вам еще девять раз.

Перезапустите двенадцать тестов под некоторым профилировщиком и получите пиковое использование памяти (виртуальное и RSS) для каждого. Опять же, это даст 12 значений. (Если ваш Linux не настроен на чрезмерную загрузку, тогда вы заинтересованы в VSZ. В противном случае вы заботитесь о RSS).

Создайте таблицу с 12 строками для этих точек данных - сжатые размеры col1: 3, времена сжатия col2: 3/9 раз декомпрессии, пиковые значения col3: 12 - и выберите то, что подходит вам больше всего. Вы должны учитывать, как часто вы сжимаете против того, как часто вы сжимаете.

Я использую lbzip2-0.23, но я написал это, так что это не считается.

Наконец, независимо от того, какой из них окажется лучшим для вас, всегда сохраняйте контрольную сумму несжатого архива, а также проверяйте сохраненный файл, прежде чем объявлять резервную копию «выполненной».

FILES=...
OUTDIR=/mnt/archive
BZ2_UTIL=...

(
  tar -c -- $FILES \
  | tee >(sha256sum >"$OUTDIR"/myfiles.tar.sha256) \
  | pv -c -N plain 2>/dev/tty \
  | "$BZ2_UTIL" \
  | pv -c -N compr 2>/dev/tty \
  > "$OUTDIR"/myfiles.tar.bz2
) 2>"$OUTDIR"/myfiles.err

"$BZ2_UTIL" -dc -- "$OUTDIR"/myfiles.tar.bz2 \
| sha256sum -c -- "$OUTDIR"/myfiles.tar.sha256
LACOS
источник
4

Я сделал несколько сравнительных тестов для bzip2 против pbzip2 и lbzip2 вместе с lzip и plzip на http://vbtechsupport.com/1614/ . Мне нравятся улучшения скорости для lbzip2, если у вас достаточно памяти.

p4guru
источник