Мой PDF содержит 600 страниц с изображениями текста. Имеет 2 слоя .
Слой 1: Фоновое цветное изображение
Слой 2: Текстовое изображение
Я хотел бы удалить все слои фонового изображения в полном файле PDF, как показано на рисунке.
Не могли бы вы предложить мне какое-нибудь программное обеспечение / инструмент?
Ответы:
обзор
То, что вы ищете, - это такие инструменты, как Scan Tailor и unpaper , которые способны к Thresholding , Despeckling и Noise Removal . Оба инструмента работают с изображениями, а не с файлами PDF, но вы можете легко конвертировать между различными форматами, которые используют эти приложения, и PDF, используя инструменты, описанные в конце этого ответа.
ScanTailor
Вы можете найти видеоурок здесь . Более подробная документация доступна на официальной вики . Вероятно, вас больше всего заинтересует страница о черно-белом режиме вывода и настройках фильтра .
Unpaper
Я еще не работал с
unpaper
собой. Из того, что я понимаю, у него гораздо больше возможностей, чем у ScanTailor, но освоить его гораздо сложнее.Интерфейс GUI отсутствует, и вам придется полагаться на ключи командной строки, чтобы выполнить свою работу. С другой стороны, это означает, что преобразования с помощью
unpaper
могут быть легко автоматизированы с помощью сценариев.Вы можете найти несколько примеров сценариев, касающихся преобразования сканирования в черно-белое и удаления фона здесь .
Некоторые полезные инструменты при работе с unpaper и ScanTailer
У меня нет достаточно времени, чтобы написать полное руководство по ScanTailor и unpaper¹, но вот несколько советов по конвертации
.pdf
и форматам изображений, поддерживаемым этими инструментами:Вы можете использовать
pdfimages
для преобразования PDF-документов в одностраничные.ppm
файлы, которые могут быть прочитаныunpaper
.Пример использования:
ScanTailor не принимает
.ppm
файлы в качестве входных данных. Вам нужно будет.png
сначала преобразовать их в другой формат, например, без потерь .mogrify
изimagemagick
набора инструментов может сделать это для вас.Пример использования:
Выходным форматом ScanTailor и unpaper являются одностраничные
.tiff
файлы. Чтобы преобразовать их обратно,.pdf
я бы предложил использоватьtiffcp
иtiff2pdf
.Пример использования:
Установка
Эта команда установит все инструменты, упомянутые выше:
¹: Для любого, кто читает это, пожалуйста, не стесняйтесь составить более подробный ответ, основанный на ScanTailor и / или на бумаге.
источник
Я только что нашел очень простое решение:
установить
gscan2pdf
.Откройте
gscan2pdf
и импортируйте PDF.Сервис-> порог. По умолчанию 80% работал нормально для меня.
сохраните PDF в другом месте.
источник
Может быть, Master PDF Editor может вам помочь, хотя я не нашел способа сделать это автоматически на 600 страницах.
источник