Что приводит к увеличению размера файла PDF при сохранении в режиме предварительного просмотра?

17

Кажется, что редактирование, аннотации или даже просто открытие и сохранение файла PDF в режиме предварительного просмотра приведет к значительному увеличению размера файла. Я заметил, что для некоторых отсканированных книг это также улучшает время рендеринга страницы.

Может ли кто-нибудь пролить свет на то, что вызывает эти изменения? Мне интересно синхронизировать аннотации PDF-книг между Preview и iPad (возможно, GoodReader), но это может быть слишком непрактично для больших PDF-файлов.

Алекс Б
источник
2
Вероятно, это связано с тем, что они решили кодировать PDF-файлы в режиме предварительного просмотра. PDF-файлы теперь являются открытым форматом, но это не обязательно означает, что все кодируют их одинаково. Ваша самая безопасная ставка - получить редактор Adobe PDF и использовать его. По словам этих людей, discussions.apple.com/thread/3896311?start=0&tstart=0 , это делает разницу. Они также обсуждают возможные причины вашей проблемы.
Тони

Ответы:

12

Лев Толстой в своем малоизвестном романе « PDF Каренина» писал:

Оптимально закодированные файлы PDF одинаковы; каждый субоптимально закодированный файл PDF субоптимально кодируется по-своему.

Никто не может ответить, почему ваши PDF-файлы больше после того, как Preview модифицирует их. Файл PDF состоит из данных различных типов: изображения, потоки содержимого, шрифты, заголовок документа, цветовые пространства, расширенные графические состояния и таблица перекрестных ссылок. Точно так же одно предложение может быть кратким, а другое - многословным, но оба они действительны на английском языке и говорят одно и то же, поэтому и один файл PDF может иметь более подробный способ представления того же содержимого, что и более сжатый файл PDF. Нам нужно посмотреть ваши точные файлы PDF. Вполне вероятно, что они были созданы различными программными средствами, некоторые из которых состоят, некоторые менее.

Также имеет значение, какую версию Mac OS X и Preview вы используете, потому что это определяет программное обеспечение, которое записывает новый файл PDF, когда вы делаете Save As in Preview.

Однако я могу рассказать вам, что становится больше в некоторых моих PDF-файлах. Эта история относится к моему компьютеру под управлением Mac OS X 10.5.8 и Apple Preview 4.2 (469.5).

Один файл Giulio.pdf- это 22-страничный документ с текстом в виде текста, а не с отсканированными изображениями. Это 461 092 байта. Я открыл его в Preview, сделал File ... Save As ... и сохранил его под новым именем файла. Новый файл имеет размер 724 421 байт, или на 57% больше.

Я открывал каждый файл в Adobe Acrobat Professional, версия 8.3.1 для Mac OS. Я сделал Advanced ... PDF Optimizer ... Аудит Space Usage ... . В небольшом диалоговом окне указывалось, сколько байт приходится на каждую категорию использования, а также процент от общего размера файла для категории.

Оригинал Giulio.pdfимеет 390 754 байта (84,75%), выделенных для потоков контента, и ноль байтов, выделенных для изображений. Это в формате PDF 1.4. Файл, сохраненный в режиме предварительного просмотра, содержит 675 846 байт (93,29%), предназначенных для потоков контента, а также ноль байтов изображений, и имеет формат PDF 1.3. Предварительный просмотр увеличил потоки контента на 285 092 байта, что составляет 73% от разницы в размерах файлов.

Я задавался вопросом, был ли формат файла PDF 1.3 по своей сути менее эффективным для хранения файлов такого типа. Я открыл оригинал Giulio.pdfв Adobe Acrobat Professional 8 и сделал Advanced ... PDF Optimizer ... Сделать совместимым с: Acrobat 3.0 и более поздними версиями и нажал OK. Я сохранил полученный файл под новым именем. Полученный файл имеет формат PDF 1.3 и имеет размер 452 356 байт или меньше, чем оригинал. Его потоки содержимого составляют 375 171 байт (82,94%), аналогичная пропорция, но меньше, чем потоки содержимого исходного файла.

Таким образом, кажется, мы можем заключить, что приложение Preview в Mac OS X 10.5.8 не так эффективно, как некоторые другие создатели PDF, создает сжатые потоки содержимого в файлах PDF, и разница достаточна для учета трех четвертей различия в размере. в PDF-файл без изображений.

Я провел аналогичный эксперимент на form k.pdf1-страничном документе, отсканированном с бумаги. Исходный файл имеет размер 303730 байт, из которых 298 197 байт (98,18%) представляют собой изображения. Копия этого файла, созданного с помощью функции «Предварительный просмотр» с помощью команды «Сохранить как», составляет 300 601 байт или на 1% меньше. Эта разница в размере файла больше, чем учитывается меньшей байтовой категорией байтов в файле, созданном в Preview.

Таким образом, кажется, мы также можем сделать вывод, что предварительный просмотр не всегда приводит к увеличению размера файла PDF. Это зависит от характера исходного файла PDF и от того, насколько лаконичным он был для начала.

Джим ДеланХант
источник
3

Я знаю, что уже довольно поздно, но я нашел что-то, что, кажется, работает, по крайней мере, если использовать изначально: я пытался использовать фильтр Quartz для «Уменьшения размера файла». Кажется, работает, но не включен по умолчанию. Я могу специально выбрать его через меню «Сохранить как» (удерживая «Option»), но я обеспокоен тем, что по умолчанию используется метод автосохранения.

Вот что происходит со мной и как я попал на эту страницу в первую очередь: PDF начинается с книги объемом 91 МБ на 900 страниц. Я добавляю одну аннотацию и сохраняю ее, и файл увеличивается до 2,29 ГБ. В довершение всего, это займет целую вечность, тем более что я сохраняю на внешний диск. Слава богу, диск USB 3!

Есть ли способ извлечь эти аннотации? Я могу комментировать и выделить Goodreader и PDF Expert на своем iPad. Если Preview не позволяет мне сделать это на моем компьютере, есть ли другое приложение, которое будет? Почему нельзя просто сохранить аннотации / основные моменты, но не пытаться повторно сжать все картинки, как будто я каждый раз сохраняю JPEG. Спасибо за помощь!

Скотт
источник
Это работает: 400 КиБ> 1,3 МиБ> 540 КиБ. Мой оригинальный PDF был меньше 400 КиБ и стал чудовищным 1,3 МиБ после добавления пары бликов / подчеркиваний. Я сделал так, как было предложено, и файл опустился до 540 КиБ: Сохранить как ... с Кварцевым фильтром, установленным на Уменьшить размер файла . Я все еще могу редактировать предыдущие выделения (что становится невозможным при экспорте в PDF ... ), и размер больше соответствует тому, что я получаю, редактируя его на другом устройстве.
Даниил
1

Проблема остается серьезной. В Preview 7.0 (Mac Os 10.9.5.) Я сгенерировал PDF, используя Acrobat 9.5.5. что привело к 5 МБ файла. В Preview я добавил ровно 12 символов (используя инструменты редактирования). После сохранения этого файла он увеличился до 14 МБ.

Вы можете исправить это, открыв и сохранив снова в Acrobat (возможно, придется использовать опцию «уменьшить размер файла»).

Питер Уец
источник
2
Это не объясняет, почему так происходит, о чем вопрос.
Ян С.
0

Не могу добавить подсказки к решению. Я могу добавить аналогичный сценарий (OS X 10.11.3): отсканированный PDF-файл весом ~ 800 КБ открывается в предварительном просмотре, удаляется пара пустых отсканированных страниц, результирующий двухстраничный более короткий PDF-файл равен ~ 2,2 МБ. «Option-Save as» и выбор кварцевого фильтра «уменьшить размер файла» сжимает файл до ... 1,9Mb.

Исходный файл был сгенерирован копиром Xerox WC 7830, который, по моему опыту (по сравнению с предыдущими многофункциональными принтерами / копировальными машинами, которые у нас были), производит довольно хорошо оптимизированные отсканированные PDF-файлы.

Визуально не вижу никакой разницы в файле; Я предполагаю, что изображения страниц повторно сжимаются в 24bpp, тогда как исходный файл очищается с использованием гораздо меньшей глубины цвета, вероятно, 6-битной (это печатный и подписанный документ, только текст, сканер хорошо справляется с сохранением белый фон чисто белый). К сожалению, Предварительный просмотр не достаточно умен, чтобы обнаружить и поддерживать это, и, кажется, нужно повторно сжать весь файл, хотя в оставшиеся страницы не было внесено никаких изменений (опять же, только несколько страниц были удалены.

Pimenta
источник