Как удалить фон страницы в оттенках серого при сканировании документа PDF, сохранив текст? (Бинаризация)

9

Мой PDF содержит 600 страниц с изображениями текста. Имеет 2 слоя .

Слой 1: Фоновое цветное изображение
Слой 2: Текстовое изображение

Я хотел бы удалить все слои фонового изображения в полном файле PDF, как показано на рисунке.

введите описание изображения здесь

Не могли бы вы предложить мне какое-нибудь программное обеспечение / инструмент?

введите описание изображения здесь

software-recommendation pdf image-processing Raghu G
источник

Какой релиз Ubuntu вы используете?

Митч

Ubuntu 13.10, 64-битная

Raghu G

Описание вопроса обновлено.

Raghu G

9

обзор

То, что вы ищете, - это такие инструменты, как Scan Tailor и unpaper , которые способны к Thresholding , Despeckling и Noise Removal . Оба инструмента работают с изображениями, а не с файлами PDF, но вы можете легко конвертировать между различными форматами, которые используют эти приложения, и PDF, используя инструменты, описанные в конце этого ответа.

ScanTailor

Вы можете найти видеоурок здесь . Более подробная документация доступна на официальной вики . Вероятно, вас больше всего заинтересует страница о черно-белом режиме вывода и настройках фильтра .

Unpaper

Я еще не работал с unpaperсобой. Из того, что я понимаю, у него гораздо больше возможностей, чем у ScanTailor, но освоить его гораздо сложнее.

Интерфейс GUI отсутствует, и вам придется полагаться на ключи командной строки, чтобы выполнить свою работу. С другой стороны, это означает, что преобразования с помощью unpaperмогут быть легко автоматизированы с помощью сценариев.

Вы можете найти несколько примеров сценариев, касающихся преобразования сканирования в черно-белое и удаления фона здесь .

Некоторые полезные инструменты при работе с unpaper и ScanTailer

У меня нет достаточно времени, чтобы написать полное руководство по ScanTailor и unpaper¹, но вот несколько советов по конвертации .pdfи форматам изображений, поддерживаемым этими инструментами:

Вы можете использовать pdfimagesдля преобразования PDF-документов в одностраничные .ppmфайлы, которые могут быть прочитаны unpaper.

Пример использования:
```
pdfimages *.pdf ./extracted-images
```
ScanTailor не принимает .ppmфайлы в качестве входных данных. Вам нужно будет .pngсначала преобразовать их в другой формат, например, без потерь . mogrifyиз imagemagickнабора инструментов может сделать это для вас.

Пример использования:
```
mogrify -format png *.ppm
```
Выходным форматом ScanTailor и unpaper являются одностраничные .tiffфайлы. Чтобы преобразовать их обратно, .pdfя бы предложил использовать tiffcpи tiff2pdf.

Пример использования:
```
tiffcp *.tiff all.tiff
tiff2pdf -F -p A4 -z -o Document.pdf all.tiff
```

Установка

Эта команда установит все инструменты, упомянутые выше:

sudo apt-get install scantailor unpaper poppler-utils libtiff-tools

¹: Для любого, кто читает это, пожалуйста, не стесняйтесь составить более подробный ответ, основанный на ScanTailor и / или на бумаге.

Glutanimate
источник

Scantailer работает, но на PDF-файлы. Вы должны были бы преобразовать это в некоторый формат изображения сначала.

Делать

@ ToDo Да, как указано в ответе :).

Glutanimate

Я понял сейчас. Лучше организовать ответ так, чтобы вся информация по каждой программе была в одном блоке.

To Do

@ToDo Первоначальная причина, по которой я поместил инструменты в отдельный раздел, заключалась в том, что они относились как к безбумажным, так и к Scantailor. Вы правы, хотя, это было немного неорганизованным. Я думаю, что это должно быть лучше сейчас

Glutanimate

3

Я только что нашел очень простое решение:

установить gscan2pdf.
Откройте gscan2pdfи импортируйте PDF.
Сервис-> порог. По умолчанию 80% работал нормально для меня.
сохраните PDF в другом месте.

Ноам
источник

1

Может быть, Master PDF Editor может вам помочь, хотя я не нашел способа сделать это автоматически на 600 страницах.

Presbitero
источник

Как удалить фон страницы в оттенках серого при сканировании документа PDF, сохранив текст? (Бинаризация)

Ответы: