Обнаружение метаданных о PDF

32

Предположим, у меня есть PDF, и я хочу получить любые метаданные, доступные для этого PDF. Какую утилиту я должен использовать?

Я нахожу часть информации, которую я обычно больше всего интересуюсь, - это размер бумаги, о котором обычно не сообщают зрители PDF. Например, буква формата PDF, легальная, A4 или что-то еще? Но другая доступная информация также может представлять интерес.

РЕДАКТИРОВАТЬ: Вот полезный справочник по размерам бумаги, благодаря @terdon.

Фахим Митха
источник
1
Weird. Почему кто-то отрицает этот вопрос? Хотите объяснить?
Фахим Митха

Ответы:

39

Один из канонических инструментов для этого pdfinfo, который, если я помню, поставляется с xpdf. Пример вывода:

[0 1017 17:10:17] ~/temp % pdfinfo test.pdf
Creator:        TeX
Producer:       pdfTeX-1.40.14
CreationDate:   Sun May 18 09:53:06 2014
ModDate:        Sun May 18 09:53:06 2014
Tagged:         no
Form:           none
Pages:          1
Encrypted:      no
Page size:      595.276 x 841.89 pts (A4)
Page rot:       0
File size:      19700 bytes
Optimized:      no
PDF version:    1.5
Ульрих Шварц
источник
1
По крайней мере, в Debian это часть утилиты poppler. У меня есть файл, который pdfinfo сообщает как 595,2 х 841,44 балла. Но это не сообщается как A4. Что решит пометить его как А4?
Фахим Митха
2
Имена жестко закодированы : буква 612 ± 0,1 x 792 ± 0,1, магические размеры для DIN / ISO A (все ± 1 пт): 3370,98, 2383,64, 1685,49, 1191,82, 842,74, 595,91, ..., кажется Ваша страница слишком узкая, pdfinfoчтобы ее можно было поднять.
Ульрих Шварц
Я вижу, немного кода if ((fabs(w - 612) < 0.1 && fabs(h - 792) < 0.1) || (fabs(w - 792) < 0.1 && fabs(h - 612) < 0.1))?
Фахим Митха
Это буква, форматы A находятся в цикле с sqrt(2)s.
Ульрих Шварц
13

Еще одна полезность, которую стоит изучить - это exiftool . Это может быть не тот инструмент в вашем конкретном случае, поскольку он не сообщает никакой информации о геометрии документа, но в целом это, вероятно, наиболее полнофункциональный инструмент для проверки метаданных PDF.

Вот пример команды, которая напечатает всю доступную метаинформацию ( -a), отсортированную по группам ( -G1):

exiftool -a -G1 "$File"

Официальная документация предлагает обзор поддерживаемых тегов, связанных с PDF:

Вы можете установить exiftool в Debian / Ubuntu с помощью:

sudo apt-get install libimage-exiftool-perl

Если вам больше нравится GUI, попробуйте мой проект PDFMtEd . Это набор инструментов, которые служат графическим интерфейсом для exiftool и позволяют просматривать и редактировать метаданные PDF.

Вот пара скриншотов:

введите описание изображения здесь

введите описание изображения здесь

Glutanimate
источник