У меня довольно большой (~ 100 МБ) PDF-документ с большим количеством изображений (в качестве иллюстраций и фоновых изображений), и я хотел бы получить копию этого pdf без изображений, но я не могу узнать, как это сделать. сделай это.
Я не говорю о преобразовании его только в текст, я хотел бы сохранить абзацы / таблицы / несколько столбцов, как они есть.
Мне комфортно с командной строкой, и у меня есть несколько компьютеров с разными дистрибутивами, которые я могу использовать.
command-line
pdf
Ornux
источник
источник
Ответы:
Этого нет в репозиториях, но вы можете найти загрузку ( предварительно скомпилированную или исходную ) на их веб-сайте .
Руководство :
источник
Последние версии Ghostscript тоже могут это сделать. Просто добавьте параметр
-dFILTERIMAGE
в вашу команду.Есть еще два новых параметра, которые можно добавить, чтобы выборочно удалять типы контента «вектор» и «текст» :
-dFILTERIMAGE
: производит вывод, где удаляются все растровые изображения.-dFILTERTEXT
: производит вывод, где удаляются все текстовые элементы.-dFILTERVECTOR
: создает вывод, где удаляются все векторные рисунки.Любые два из этих вариантов могут быть объединены. (Если вы объедините все 3, вы получите все страницы пустыми ...)
Примеры
Вот снимок экрана с примером страницы PDF, которая содержит все 3 типа контента, упомянутых выше:
Снимок экрана оригинальной PDF-страницы, содержащей элементы "image", "vector" и "text".
Выполнение следующих 6 команд создаст все 6 возможных вариантов оставшегося содержимого:
Следующее изображение иллюстрирует результаты:
Верхний ряд слева: весь текст удален; все "изображения" удалены; все "векторы" удалены. Нижний ряд слева: сохранен только «текст»; сохраняются только «изображения»; сохранились только «векторы».
источник
В то время как @Rinzwind ответ является Right Thing , я хотел бы просто прокомментировать решение « на полпути». Обычно вы можете значительно уменьшить размер изображений, используя ghostscript с
... это иногда удобно для корректуры. Страница руководства по написанию PDF находится здесь .
источник
/screen
будет (среди прочего) устанавливать разрешение растровых изображений на 72dpi. Так что да, если у вас есть изображения с меньшим DPI, это может увеличить размер файла. Вот почему я использовал слово «обычно» (в смысле «не всегда, но довольно часто»). Не стесняйтесь понижать голос, что вы хотите.for s in screen default ; do gs -o /dev/null -sDEVICE=pdfwrite -dPDFSETTINGS=/${s} -c "currentpagedevice {exch ==only ( ) print === } forall" | sort | tee ghostscript---pdfwrite-PDFSETTINGS-${s}--pagedevice-settings.txt; done
. Он создаст два текстовых файла, которые вы можете сравнить, используяsdiff -sbB $[file1}.txt ${file2}.txt
. Теперь вы точно и полностью знаете все представленные настройки-dPDFSETTINGS=/screen
!/screen
чем в/default
- 72dpi против 150dpi, оптимизированный, отменить предварительный просмотр EPS ... но, эй, не большая проблема. Люди будут проверять и выбирать лучшее решение./screen
дало очень плохие результаты. Возможно, моя память не работает, или я перепутал это/epub
. Команда, которую я дал вам, была из памяти, потому что я был совершенно уверен, что она покажет, что я имел в виду. Теперь я снова запустил его, я больше не вижу того, что ожидал: более расширенные тесты я выполнил несколько лет назад. Затем многие шрифты (CID? / CFF?) Получили растрированные размеры вздутие живота PDF-файлов. Я должен снова вернуться к этой проблеме, как только у меня будет больше времени ... :-)Вы можете использовать главный редактор PDF, удалить эти изображения и сохранить как новый файл PDF. Вы можете скачать его из программного центра Ubuntu.
источник