Возможное дублирование.
Какое бесплатное программное обеспечение можно использовать для сканирования отсканированных изображений
У меня есть несколько PDF-файлов, составленных из сканов страниц книги. Сканирование выполняется с двух страниц одновременно, и некоторые из этих сканов перекошены, что делает текст слегка наклоненным.
Я ищу инструмент, который позволил бы мне выполнить автоматическую оптимизацию путем перетаскивания сканов без потери читабельности. Я нашел программу GPL Briss для обрезки сканов, чтобы иметь соотношение страниц 1: 1 вместо 2: 1, но у меня нет никакого инструмента для выравнивания страниц.
Я наткнулся на unpaper , еще один инструмент с открытым исходным кодом, который, кажется, идеально подходит для того, что я хочу сделать, но этот инструмент только для Linux, и он не работает напрямую с PDF-файлами.
Любая подсказка приветствуется.
источник
Ответы:
Посмотрите на стол . Это инструмент командной строки. Загрузочный zip-архив включает в себя двоичные файлы для Windows, MacOSX и Linux.
Лицензия - MPL (Mozilla) или LPGL (GNU), что вы предпочитаете.
Единственным недостатком для вас, кажется, является то, что он не использует PDF-файлы, только изображения в формате PNG и TIFF (AFAICS). Это означает, что вам придется настроить рабочий процесс s.th. нравиться:
Я не проверял это сам (пока), я недавно наткнулся на сайт и добавил его в закладки.
источник
deskew
мне удалось исправить искажения, связанные с вращением, в моем тестовом прогоне, но, к сожалению, он ввел тонкую серую линию в позиции границы исходного изображения. Чтобы избавиться от серой границы, я обрезал изображения с-extent
опциейmogrify
. Я тестировал только на OS X, возможно, это неправильное поведение зависит от платформы.deskew
работает действительно хорошо. Мой рабочий выглядит так: pdfimages-all <pdf> my_images
→ JBIG2-s -p -v my_images* > output
→pdf.py output > deskewed.pdf
Если черные границы (результат работы Выравнивание) надоедает вам, некоторая обработка с ImageMagick может быть необходимым, как было предложено @StefanSchmidtО, позвольте мне добавить еще один ответ. Я только что вспомнил netpbm . Не использовал его годами, но я думаю, что я должен взглянуть по-новому ...
netpbm - очень мощный инструментарий для командной строки для работы с графическими изображениями. Он отправляет около 300 отдельных инструментов. Включает конвертеры для около 100 графических форматов.
И у этого также есть инструмент командной строки, который может вращать изображения:
И у него есть еще один инструмент, который пытается обнаружить угол поворота изображения:
pamtilt
возвращает плавающее число своего предположения о повороте изображения. Таким образом, автоматическое удаление изображений должно быть в пределах досягаемости. Для этого можно написать сценарий оболочки. Это потребовало бы разных шагов:pamtilt
для автоматического определения угла наклона изображения.pnmrotate
для удаления изображения.Если вы предоставите мне доступ к небольшому образцу ваших PDF-файлов, я мог бы попытаться создать сценарий оболочки для выполнения этой задачи.
(Мне очень интересно, что [netpbm] не имеет здесь тега на superuser + stackoverflow.)
источник