Как сохранить файл PDF изображения в качестве изображения?

33

У меня есть PDF, который содержит отсканированное изображение документа. Я хочу сохранить содержимое этого PDF-файла в виде изображения, чтобы затем запустить его через программу OCR, которая принимает только файлы типа .jpg, .png и .gif.

Как сохранить / преобразовать этот PDF-файл в один из этих графических форматов?

РЕДАКТИРОВАТЬ: Один из способов, которые я нашел, это нажать на каждую страницу. Скопировать в буфер обмена. Вставьте в Paint.net и сохраните. Однако это громоздко, так как кажется, что вы можете выбрать только одну страницу за раз в Acrobat Reader.

парень
источник

Ответы:

20

Пожалуйста, обратите пристальное внимание на ответ поэорика , в котором он указывает, что ответ Слеске на самом деле является гораздо лучшим ответом для этой конкретной проблемы.


Используйте GhostScript . Эта команда работает для меня:

gs -dBATCH -dNOPAUSE -sDEVICE=png16m -dGraphicsAlphaBits=4 -dTextAlphaBits=4 -r150 -sOutputFile=output%d.png input.pdf

Существует несколько псевдоустройств png, различающихся по глубине цвета: pngmono, pnggray, png16, png256, png16m и pngalpha. Выберите тот, который подходит вам лучше всего.

Вы также можете использовать jpeg, но если у вас нет проблем с дисковым пространством, вы хотите получить такое же высокое качество, как вы можете управлять для OCR, и это не jpeg.

GhostScript больше не поддерживает gif, но я не представляю, зачем вам это нужно, что с поддержкой png256.

wfaulk
источник
Мне нравится GhostScript, и если вам нужно удобство графического интерфейса пользователя для настройки параметров, просмотра и т. Д., Попробуйте GSview pages.cs.wisc.edu/~ghost/gsview
Деннис
Будет ли вывод одним огромным изображением?
Ксонатрон
1
@Xonatron: Нет. Одно изображение на странице. Имя %dвыходного файла - это переменная, которая заменяется номером страницы. (Почти наверняка необработанные числа, а не числа внутри PDF.)
wfaulk
20

Установите Imagemagick . Откройте окно cmd или терминал:

convert myfile.pdf myfile.jpg

Выходными данными будет 1 файл jpg для каждой страницы в вашем pdf, test-0.jpg, test-1.jpg и т. Д.

DaveParillo
источник
+1 за ImageMagick, но -2 за предложение за неправильную работу. JPEG хорош для фотографий, но это худший формат для использования, когда у вас резкие egdes и высокие контрасты (как вы обычно делаете с черным текстом / символами на белом фоне). Кроме того, ImageMagick не выполняет конвертацию самостоятельно, он использует Ghostscript в фоновом режиме в качестве подчиненного «делегата». Выполнение этого с помощью Ghostscript напрямую дает вам больше контроля над используемыми параметрами. А затем выберите TIFF (не JPEG) в качестве выходного формата, ради Криса!
Курт Пфайфл
1
Обратите внимание на Windows, убедитесь, что вы сначала установили 32-битный Ghostscript.
Пользователь
2
Будьте в курсе density, depthи qualityфлаги , которые могут помочь вам оптимизировать производительность. Например: convert -density 300 -depth 8 -quality 85 a.pdf a.png Больше информации
Ник
13

Это также pdfimagesиз инструментов Xpdf (доступно с сайта XpdfReader ). Он не преобразует всю PDF-страницу в изображение, а извлечет встроенные изображения из PDF-файла.

Это полезно, если PDF-файл содержит текст и изображения, а вам нужны только изображения. Кроме того, он будет извлекать изображения в их исходном формате, поэтому потери качества не возникает (в отличие от программ, которые визуализируют всю страницу, а затем преобразуют ее, например, в JPEG). В зависимости от ваших потребностей это может быть полезно.


Простое использование:

pdfimages -j -list mydocument.pdf mydocument-images

Это позволит прочитать входной файл mydocument.pdf, извлечь все изображения и записать их в отдельные файлы с именами mydocument-images-0000.jpgи mydocument-images-0001.jpgт. Д.

Опция -jпозволяет записывать встроенные JPEG-сжатые изображения как файлы JPEG, а не как файлы PBM / PGM / PPM (которые являются несжатыми и огромными). Обратите внимание, что изображения по-прежнему могут быть записаны в виде файлов PBM / PGM / PPM, если они хранятся во входном файле PDF.

sleske
источник
Для справки, простое использование - pdfimages -j "yourinputfile.pdf" "outputimages"это "outputimages-0000.ppm" (или "outputimages-0000.jpg", если они в правильном формате). Примеры .NET можно
привить
Предостережение заключается в том, что он может быть не в состоянии сохранить файл в формате JPG, а скорее в формате PPM
drzaus
11

Вы можете сделать это с помощью Adobe Reader:

  1. Нажмите на изображение. Это будет выделено.
  2. Скопируйте (Ctrl-C) и вставьте его в Paint.
  3. Сохранить как любой тип файла, который вам нравится.
Hemant
источник
2
Интересно знать, что в Adobe Reader есть настройка для переопределения точек на дюйм для изображений, снятых с помощью инструмента моментальных снимков, при значении 300 точек на дюйм вы получите снимки, готовые к печати (по умолчанию используется разрешение экрана, которое обычно слишком низкое для повторного использования в другой работе)
Стейн Сандерс
3
+1 для простоты. Большинство читателей PDF позволяют вам сделать это.
Decio Lira
4
Что если в вашем PDF-файле 10000 страниц изображений? Вы должны сделать это 10000 раз?
Парень
9

За исключением ответа, в котором упоминается pdfimages, во всех остальных ответах не упоминается, что их решения фактически транскодируют встроенные изображения. То есть эти решения не просто извлекают исходное изображение, но и изменяют его, возможно, в ущерб изображению, во время процесса. Только pdfimages извлекает исходное изображение. Это относится к Ghostscript, Imagemagick, Adobe Reader, PDFFill, PDF Xchange Viewer, OS X Preview и большинству других программ PDF.

pooryorick
источник
Учитывая контекст вопроса, на самом деле это очень хороший момент.
wfaulk
FWIW, «PDFill PDF Tools» действительно позволяет вам установить DPI для сохранения как изображения, очень удобно. Таким образом, каждая страница (начиная с текста, изображений и любых других объектов) сохраняется, например, в формате PNG с высоким разрешением 4961x6520.
Крис О,
4

PDFill PDF Tools - это, вероятно, самый простой способ конвертировать ваши PDF-файлы в изображения в Windows. Это позволит вам экспортировать все страницы в формате PDF, чтобы разделить изображения за один снимок. Он также имеет множество других функций, доступных бесплатно, которые доступны только в других средствах просмотра PDF, если вы покупаете коммерческую или "Pro" версию.

Используйте кнопку «Преобразовать PDF в изображения» (кнопка № 10) на снимке экрана ниже.

Скриншот PDFill PDF Tools

Если вам нужно объединить изображения в одно очень высокое изображение, чтобы вам нужно было передать только один файл в программу распознавания, вы можете использовать IrfanView

грабить
источник
обратите внимание, что это установит два разных инструмента в вашей системе. Основным из них является PDFill Editor, который вам не нужен. Войдите в меню «Пуск», чтобы открыть это. Я сохранил скриншот, осознав, что что-то не так, прежде чем удалить.
ufotds
Да, я не упомянул, что он также устанавливает условно-бесплатную версию PDFill Editor и принтер PDF. Любые файлы, созданные с помощью PDFill Editor, будут иметь водяной знак, если вы не купите редактор за $ 19,99, но утилита PDFill PDF Tools Free не требует никакой покупки. В имеющейся у меня версии вы не можете удалить PDFill Editor, не удалив также PDFill PDF Tools Free, но с установленным PDFill Editor ничего не повредит.
ограбить
2

Поскольку вы не включили тег OS, я добавлю ответ OSX:

PDF-файлы по умолчанию открываются в Preview.app, что позволяет использовать File -> Save-As:

  • GIF
  • ICNS
  • JPEG
  • JPEG-2000
  • BMP
  • OpenEXR
  • Photoshop
  • PNG
  • TGA
  • TIFF
Озеро
источник
1

Также PDF Xchange Viewer (бесплатно) будет выполнять экспорт в файл. Файл → Экспорт → Экспорт в изображение.

Не только это, но я думаю, что это лучший бесплатный просмотрщик PDF для Windows, и у него есть несколько хороших возможностей разметки. У меня есть лицензия на Adobe Acrobat, и я все еще предпочитаю ее, если я не занимаюсь обширным редактированием, что бывает редко.

wfaulk
источник
Это выглядело многообещающе, пока я не обнаружил, что возможность экспорта в изображение отключена для защищенных паролем PDF-файлов.
Митч
1

(Не бесплатно) Acrobat professional делает это:

Дополнительно-> Обработка документов-> Экспорт всех изображений ...

ufotds
источник
0

Если размер файла менее 5 МБ, и вы не беспокоитесь о конфиденциальности / конфиденциальности, то это удобный онлайн-сервис по адресу http://www.go2convert.com/, который может выполнять множество графических преобразований (включая PDF в JPEG).

sgmoore
источник
Просто попытался, и он выдал это сообщение об ошибке "Извините! Это изображение не может быть преобразовано правильно"
Парень
-1

Если размер изображения превышает размер экрана, вы можете использовать функцию FastStone Capture (функция «Окно прокрутки захвата») и сохранить изображение в формате JPEG.

альтернативный текст

багор
источник
Это очень окольный способ захвата изображения. У OP уже есть лучшее решение (отметьте страницу в Acrobat).
Слёске
-1

Вы можете проверить эту статью .

В нем перечислены 6 различных способов конвертировать PDF в изображения.

Конвертировать PDF в JPG (веб-путь)

Конвертеры PDF в JPG для рабочего стола

новичок
источник
эээ .. почему отказался?
нуб