Нужно найти и конвертировать тысячи многостраничных TIFF

1

У меня есть большая коллекция документов в различных форматах (PDF, TIFF, JPEG).

Многие из TIFF-файлов являются многостраничными, как и факсы, и я знаю, что видеть все страницы можно только с помощью Preview.

Есть ли какой-либо метод или приложение или команда оболочки (через brew), которая может найти все многостраничные файлы TIFF, чтобы я мог преобразовать их в многостраничные PDF-файлы?

Дэн
источник
2
Вы хотите узнать, как запрограммировать это (так что вы можете решить нанять эту работу или сделать это самостоятельно) или решить проблему типа рекомендации по программному обеспечению. Метод программирования сам по себе достаточно широк, и shell / automator / AppleScript может оказаться вполне подходящим для тех, кто обладает средними навыками работы с этими инструментами.
bmike
Я немного поиграл с LibTIFF, среди которых есть tiff2pdfи утилиты tiff2ps. Первый не работал, просто делал пустые страницы, однако последний работал. Затем я использовал нативную pstopdfдля преобразования файлов .ps в файлы .pdf. Это может быть написано в сценарии для работы с несколькими входными файлами и удаления промежуточных файлов .ps, так что останутся исходный файл .tiff и преобразованные файлы .pdf. Ваш вопрос довольно широкий, поэтому я не собираюсь указывать его в форме ответа, поскольку нет информации о вашем уровне квалификации и о том, что еще вам нужно для решения этой проблемы.
user3439894
tiff2pdfу меня работает ... примерно на 60% TIFF. Остальное я могу конвертировать с помощью Preview. Моя проблема - идентифицировать их, а не конвертировать их. Я попробую exiftool.
Дан

Ответы:

1

Есть способ найти их с помощью командной строки в терминале. Для этого необходимо установить инструмент, который не является частью набора команд по умолчанию.

Скачайте и установите exiftool.

exiftool может печатать подробную информацию о файлах изображений, включая файлы TIFF. Он может отличить многостраничные документы от факсов и фотографических TIFF. Например, testphoto.tif - это обычный файл TIFF, а testfax.tif - это многостраничный факс:

MacBook-Air:Downloads jamie$ exiftool -s -Format -Compression -SubfileType *.tif 
======== testfax.tif
Compression                     : T6/Group 4 Fax
SubfileType                     : Single page of multi-page image
======== testphoto.tif
Format                          : image/tiff
Compression                     : LZW
SubfileType                     : Full-resolution Image
    2 image files read

Если мы можем получить имя файла и идентификационную информацию в одну строку, то мы можем использовать grep для идентификации файлов, которые мы хотим. Опция -csv помещает вывод в одну строку в формате значений, разделенных запятыми. Таким образом, такая команда будет делать то, что вы хотите.

MacBook-Air:Downloads jamie$ exiftool -csv  -SubfileType *.tif | grep multi-page
    2 image files read
testfax.tif,Single page of multi-page image

Итак, мы правильно определили testfax.tif как единственный многостраничный TIFF в этом каталоге.

Джейми Кокс
источник
Возможно, вы не сможете положиться на exiftool. У меня есть много многостраничных файлов .tiff, которые он не определяет как многостраничные, в том числе те, которые содержат факс T6 / Group 4, являются многостраничными, но не показывают его. Так что, хотя это возможный метод, он может быть ненадежным в зависимости от других факторов.
user3439894
Я мог бы полагать, что в зависимости от того, как они были созданы, атрибуты могут отличаться. Возможно, для OP будет достаточно, а может, даже лучше, обнаружить атрибут «Факс T6 / Group 4».
Джейми Кокс
Сколько страниц есть testfax.tifи exiftoolдает ли вам Page Countдля этого .tif?
user3439894
testfax.tif - это три страницы. exiftool -aна самом деле возвращает информацию для каждой отдельной страницы: MacBook-Air:Downloads jamie$ exiftool -a testfax.tif | grep -i page Subfile Type : Single page of multi-page image Page Number : 0 3 Subfile Type : Single page of multi-page image Page Number : 1 3 Subfile Type : Single page of multi-page image Page Number : 2 3 Итак, я интерпретирую это как описание последней страницы, например как 2 из 3.
Джейми Кокс,
Не работает для меня ... не удается определить несколько страниц ... :(
Дэн