Недавно я наткнулся на следующую интересную статью, в которой утверждается, что эффективное сжатие случайных наборов данных всегда более чем на 50%, независимо от типа и формата данных.
В основном он использует простые числа для уникального построения представления 4-байтовых блоков данных, которые легко распаковать, учитывая, что каждое число является уникальным произведением простых чисел. Чтобы связать эти последовательности с простыми числами, он использует словарь.
Мой вопрос:
- Действительно ли это осуществимо, как предполагают авторы? Согласно статье, их результаты очень эффективны и всегда сжимают данные до меньшего размера. Разве размер словаря не будет огромным?
- Разве это не может быть использовано для повторного повторного сжатия сжатых данных с использованием того же алгоритма? Очевидно и было продемонстрировано, что такие методы (когда сжатые данные повторно сжимаются столько раз, сколько возможно, резко уменьшая размер файла) невозможны; действительно, не было бы биекции между набором всех случайных данных и сжатых данных. Так почему же это кажется возможным?
- Даже если техника еще не совершенна, она, очевидно, может быть оптимизирована и значительно улучшена. Почему это не более широко известно / изучено? Если эти утверждения и экспериментальные результаты действительно верны, разве это не может революционизировать компьютерные технологии?
Ответы:
Это невозможно. Вы не можете сжать случайные данные, вам нужна некоторая структура, чтобы воспользоваться преимуществами. Сжатие должно быть обратимым, поэтому вы не можете сжать все на 50%, потому что строк длины гораздо меньше, чем строк длины n .н / 2 N
Есть несколько основных проблем с бумагой:
Они используют 10 тестовых файлов без каких-либо указаний на их содержание. Действительно ли данные случайны? Как они были созданы?
Они утверждают, что достигли коэффициентов сжатия не менее 50%, в то время как их тестовые данные показывают, что они достигают не более 50%.
Какая? Простые числа являются простыми числами независимо от основания.
Проблема № 1 с декомпрессией: первичная факторизация - сложная проблема, как они делают это эффективно?
Выпуск № 2 с декомпрессией ( это кикера ): они умножают простые числа вместе, но при этом вы теряете какую - либо информацию о заказе, так как . Я не думаю, что это возможно, чтобы распаковать вообще, используя их технику.2 ⋅ 5 = 10 = 5 ⋅ 2
Я не думаю, что эта статья очень хорошая.
источник
Я собираюсь обратиться к Тому ван дер Зандену, который, кажется, прочитал статью и обнаружил слабость в методе. Хотя я не читал статью подробно, исходя из аннотации и таблицы результатов, это кажется правдоподобным утверждением.
Они утверждают, что постоянный коэффициент сжатия 50% для текстовых файлов (не «всех файлов»), который, как они отмечают, примерно такой же, как LZW, и примерно на 10% хуже, чем (предположительно нулевого порядка) кодирования Хаффмана. Сжатие текстовых файлов на 50% несложно достичь, используя достаточно простые методы; это бакалавриат во многих курсах по информатике.
Я согласен, что статья не очень хороша в качестве опубликованных исследований, и я не думаю, что это говорит о рецензентах, что это было принято. Помимо очевидных недостающих деталей, которые делают невозможным воспроизвести результаты (например, текстовые файлы), и отсутствия попыток связать их с областью сжатия, нет никакого смысла в том, что они действительно понимают, что делает их алгоритм.
Веб-сайт конференции претендует на соотношение сторон 1: 4, что заставляет задуматься, что они отвергли.
источник
Ты спрашиваешь:
Да, конечно. Даже для их подобранного вручную примера («БЫСТРЫЙ СЕРЕБРЯНЫЙ ФОКС ПЕРЕРЫВАЕТСЯ НА ЛЕНОЧНУЮ СОБАКУ») они не достигают сжатия, поскольку словарь содержит каждую 4-байтовую подстроку текста (минус 4 байта за одно повторение) ") ... и" сжатая "версия текста должна включать в себя весь словарь и всю эту хрень с простыми числами.
Снова вы, кажется, хорошо разбираетесь в ситуации. Вы интуитивно поняли, что никакая схема сжатия не может быть эффективной на всех входах, потому что если бы она была таковой, мы могли бы просто применять ее снова и снова, чтобы сжать любой вход до одного бита, а затем - в ничто!
Другими словами: после того, как вы сжали все ваши файлы .wav в .mp3, вы не получите никакого улучшения в размере файлов, сжав их. Если ваш MP3-компрессор справился со своей работой, не останется никаких шаблонов для использования ZIP-компрессором.
(То же самое относится и к шифрованию: если я возьму файл с нулями и зашифрую его в соответствии с моим выбранным алгоритмом шифрования, полученный файл лучше не сжимать , иначе мой алгоритм шифрования пропускает «образец» в свой вывод!)
Эти утверждения и экспериментальные результаты не соответствуют действительности.
Как уже отмечал Том ван дер Занден, «алгоритм сжатия» Чакраборти, Кар и Гуше имеет недостатки в том, что он не только не обеспечивает какой-либо степени сжатия, но и необратим (в математическом выражении «не биективно»): множество текстов, которые все «сжимаются» в одно и то же изображение, потому что их алгоритм в основном является умножением, а умножение - коммутативным.
Вам должно быть приятно, что ваше интуитивное понимание этих концепций мгновенно привело вас к правильному выводу. И, если вы можете сэкономить время, вам следует пожалеть авторов статьи, которые явно потратили много времени на размышления на эту тему, даже не понимая ее.
Каталог файлов на один уровень выше размещенного вами URL-адреса содержит 139 «документов» такого же качества, все из которых, очевидно, приняты в «Труды Международной конференции по новейшим исследованиям в области вычислительной техники, информации, связи и приложений». Похоже, это фиктивная конференция обычного типа. Цель таких конференций - позволить мошенническим ученым требовать «публикации в журнале», а также позволить недобросовестным организаторам заработать кучу денег. (Для получения дополнительной информации о поддельных конференциях, ознакомьтесь с этой веткой reddit или различными сообщениями StackExchange по этой теме .) В каждой области существуют фиктивные конференции . Просто научитесь доверять своим инстинктам и не верьте всему, что вы читаете в «процессе конференции», и у вас все получится.
источник
Энтропия эффективно ограничивает производительность самого сильного сжатия без потерь. Таким образом, не существует алгоритма, который может сжимать случайные наборы данных всегда более чем на 50%.
источник
Методы сжатия, которые восстанавливаются, в общем, находят образец и повторно выражают его в упрощенной форме. Некоторые очень умные, некоторые очень простые. В какой-то момент нет шаблона. Процесс (ы) «сварили» набор данных до самого простого уникального шаблона. Любые попытки сжатия с этого момента приводят к увеличению объема данных или снижению уникальности. В схемах сжатия магических чисел всегда есть недостаток, или слабость руки, или потеря. будьте осторожны с любым процессом, который утверждает, что делает последнюю версию WinZip или RAR.
источник