Как «Размер слова» влияет на сжатие?

24

В 7 Zip при добавлении папки в архив есть возможность изменить размер слова.

Как этот размер слова влияет на сжатие, в частности на окончательный размер почтового индекса?

Я заметил, что изменение уровня сжатия увеличивает размер слова, однако даже на ультра он только выбирает размер слова 128, хотя самый большой вариант больше, чем вдвое. Есть ли причина, по которой ультра не выбирает самый большой? Является ли оптимальный размер сжатия где-то между самым большим и самым маленьким размером слова?

Aequitas
источник
Посмотрите, что Shell говорит в этом посте о части ваших вопросов здесь -> The Post .
Сок Pimp IT
@LMFAO_A_JOKE, который просто говорит, что для некоторых файлов выше лучше иногда нет
Aequitas
1
Это не ОТВЕТИТ на все ваши вопросы в мельчайших подробностях, но на ОДИН вопрос -> How does this word size affect compression, in particular the final size of the zip?Я думаю, что в части WordSize: usually the bigger, the better (and slower) for well-compressible data (such as documents). Archive size depends quite non-monotonically of it., посвященной публикации, содержится объяснение ЧАСТИ вашего набора вопросов. Вот почему я поместил это здесь только для комментария и НЕ ответил - просто пытаюсь дать вам кое-что !!!
Сок Pimp IT
Что означает последнее предложение, размер архива ... немонотонно
Aequitas
1
Я думаю, это означает, что размер архива будет меньше (уменьшаться по сравнению с исходным размером больше) «обычно» при большем значении WordSize, но это «зависит» от сжимаемости сжатых типов данных, таких как текст в отличие от файлов изображений, возможно, в качестве одного примера. Было предложено протестировать различные значения, чтобы получить наиболее оптимальное значение для ваших данных, но при этом знать, что вы выбираете лучшие варианты в соответствии с вашими потребностями.
Сок Pimp IT

Ответы:

8

Это действительно зависит от данных, которые вы сжимаете, и используемого алгоритма.

Размер слова

Введите длину слова, которая будет использоваться для поиска идентичных последовательностей байтов для сжатия. Для LZMA большой размер слова обычно дает немного лучшую степень сжатия и более медленный процесс сжатия. Параметр большого размера слова может значительно увеличить степень сжатия в случае, когда файлы содержат длинные идентичные последовательности байтов. Для PPMd размер слова имеет большое значение. Это сильно влияет как на степень сжатия, так и на скорость сжатия / распаковки.

Здесь есть некоторые сравнения

Hefewe1zen
источник
3
вот архивированная страница web.archive.org/web/20180820055912/https://www.dotnetperls.com/…
phuclv