Уменьшите разрешение, размер, число точек на дюйм, количество пикселей в изображениях PDF

0

Я отсканировал текст с разрешением 600 точек на дюйм, и оказалось, что это намного больше, чем нужно для создания PDF-файла. Я уже напечатал текст OCR, и я хочу сохранить OCR в PDF.

Я хочу уменьшить количество пикселей (dpi? Извините, я не уверен, как бы я их назвал, я не привык к обработке изображений), поэтому я могу уменьшить размер PDF. Изображения слишком велики, когда я открываю PDF, было бы хорошо уменьшить их, уменьшив количество пикселей (как сейчас, я могу увеличивать изображения намного больше, чем мне нужно).

Как я могу уменьшить размер изображения, уменьшив количество пикселей (точек на дюйм))?

Я не хочу перепечатывать PDF-файл или повторно сканировать его, потому что я не хочу терять распознавание текста. Я попытался использовать Adobe Acrobat Pro DC «Сохранить как оптимизированный PDF» и сжал все изображения с разрешением от 50 до 50 точек на дюйм. Это сделало PDF больше! (Я думаю, что PDF уже сжат; но я не хочу сжатие, я хочу уменьшить количество пикселей / разрешение)

Я на Windows 7, 64 бит

Flen
источник
Но теперь я думаю ... Можно ли уменьшить длину / разрешение изображения и сохранить OCR? Это может быть невозможно, потому что OCR не будет коррелировать с позиции текста в изображении
Flen
Кстати, OCR, как правило, оптимизирован для ок. 300 точек на дюйм Если вы хотите, чтобы OCR действительно крошечный текст, вы можете сканировать с более высоким разрешением, но если вы сканируете обычный текст с разрешением 600 точек на дюйм только для целей оптического распознавания текста, он ничего не купит, кроме огромного файла.
fixer1234

Ответы:

1

Я думаю, что вы были на правильном пути с Acrobat Pro.

Вам нужно изменить фактическое разрешение изображения, хотя. Вы можете сделать это, вручную создав версию с низким разрешением (например, 50% Ш x 50% В) и заменив существующее изображение в формате PDF на новое. В этом случае изображение dpi внутри pdf тоже нужно будет уменьшить вдвое, чтобы сохранить размер. Если вы сохраните то же самое dpi, оно будет отображаться на четверть размера.

Пока размеры документа не меняются, текст OCR должен быть сопоставлен с теми же пространственными координатами.

Редактировать: пакетная обработка с использованием Acrobat Pro

Ниже вы можете увидеть Acrobat Pro (XI) может просматривать свойства изображения. 123

  1. Как только изображение становится частью PDF, оно получает физический « размер » на «виртуальной бумаге».
  2. Ppi (или dpi, но это больше для контекстов печати) - это метрика pdf, которая дает соотношение между физическим размером и количеством пикселей. Я полагаю, что указанная на рисунке единица измерения pt / inch неверна; это должно быть ppi. Я также думаю, что называть это резолюцией - плохой выбор слов.
  3. Реальное разрешение изображения (ширина по ширине) - это свойство изображения, не зависящее от PDF, оно влияет на размер файла и степень его значительного увеличения при цифровом просмотре.

Существует простое математическое соотношение: 2 = 3/1.

  • То, что вы хотите сделать, это уменьшить 3 при сохранении 1 константы, тем самым неявно уменьшая 2 на соответствующую величину.
  • Большинство редакторов используют формулировку «изменить dpi», которая практически одинакова: измените 2 и неявно настройте 3 таким образом, чтобы 1 оставался неизменным.
  • Но под капотом самое большое изменение происходит с разрешением изображения (3), ppi / dpi - это просто число, которое необходимо обновить в pdf; так что я нахожу свою формулировку лучше :)

Ниже вы можете запустить своего рода «умный фильтр» в своем PDF-файле с помощью Acrobat Pro, один из доступных предустановленных фильтров - уменьшение dpi изображения. Таким образом, вы можете просто запустить опцию предварительной проверки или создать свою собственную. Вы можете настроить параметры уменьшения масштаба и методы сжатия изображений. Акробат Про

Я думаю, что вы можете пакетно обрабатывать несколько файлов PDF, используя этот метод в сочетании с инструментом «мастера действий».

jiggunjer
источник
Хорошо продумано! Но как мне разделить изображение и уменьшить его вдвое, особенно в пакетном режиме для всех изображений (вместо того, чтобы делать это вручную)? Возможно, есть какое-нибудь решение FOSS? Или даже решение в Acrobat?
Флен
@flen Я думаю, imagemagick часто используется для пакетной обработки такого рода вещей, но никогда не использовал его сам.
Джиггунджер
Я думаю, что работать с изображениями партиями не составит большого труда (я могу экспортировать все изображения всех PDF-страниц с помощью Acrobat). Проблема будет состоять в том, чтобы заменить их позже в самом PDF. Может быть, я смогу сделать так, чтобы JavaScript API Acrobat заменял эти изображения в пакетном режиме ... Мне придется взглянуть на это. Но если бы я делал это вручную, как бы вы предложили мне создать версию с низким разрешением и уменьшить вдвое разрешение? Через использование Imagemagick?
Флен
@flen Я обновил информацию об использовании Acrobat.
jiggunjer
Спасибо!!! Работало отлично! Я запустил стандартный предварительный просмотр «Уменьшить разрешение изображения до 150 ppi (растровые изображения до 300 ppi)» (в Acrobat DC Pro: в меню «Инструменты» -> «Печать» -> «Предварительный просмотр» -> исправления PDF). Размер PDF был уменьшен до трети от исходного размера! Забавно, но прежде я пытался сохранить «оптимизированный pdf», который уменьшил бы до 150 ppi изображений выше этого, но уменьшение размера было минимальным. Я не знаю, почему «
предпечатная
0

Sejda «s Сжать PDF инструмент оптимизирует изображения в PDF документе, изменяя их DPI на основе вашего выбора.

https://www.sejda.com/compress-pdf

Изменить DPI изображений в PDF с помощью Sejda compress PDF

Также доступно настольное приложение.

Я один из разработчиков.

ЭДИ
источник
Ницца! Я только что скачал, я попробую
Флен
Мой PDF-файл почти 100 МБ, это превышает ограничение в 50 МБ для бесплатной настольной версии, так что ничего не выйдет ...
Флен