Идентификация
Я нашел этот инструмент, который, похоже, можно использовать для идентификации файлов PDF / A. Это называется DROID (цифровая запись и идентификация объекта) . Он основан на Java и может быть запущен из графического интерфейса или командной строки.
выдержка
DROID - это программный инструмент, разработанный Национальным архивом для автоматической пакетной идентификации форматов файлов. Разработанный его Департаментом цифрового сохранения в рамках его более широкой деятельности по сохранению цифрового контента, DROID предназначен для удовлетворения основных требований любого цифрового хранилища, чтобы иметь возможность идентифицировать точный формат всех хранимых цифровых объектов и связать эту идентификацию с центральным реестром. технической информации об этом формате и его зависимостях.
Учитывая, что он спонсируется Национальным архивом, я бы предположил, что это правильный инструмент для этого, учитывая предполагаемую цель формата PDF / A. Также проект с открытым исходным кодом, и код доступен на Github, а также упакован в двоичном виде с веб-сайта Национального архива .
Проверка и преобразование
Если вы ищете инструмент для проверки и преобразования, я думаю, что PDFBox может сделать это. PDFBox перечисляет проверки PDF / A прямо на первой странице своего сайта. Это другое Java-приложение 8-).
выдержка с сайта
Проверка PDF / A Проверка
PDF-файлов на соответствие стандарту PDF / A ISO.
В разделе инструментов командной строки слева от их главной страницы показано следующее использование инструмента:
$ java -jar pdfbox-app-x.y.z.jar org.apache.pdfbox.ConvertColorspace [OPTIONS] <inputfile> <outputfile>
veraPDF - еще один инструмент, способный проверять PDF / A; это часть набора инструментов Open Preservation Foundation. Это также Java-приложение.
преобразование
Для простого преобразования я нашел этот метод в посте блога под названием: Бесплатный способ преобразования существующего PDF в PDF / A , в котором используются следующие инструменты:
- Только Ghostscript 8.64.
- PDFBox 0.7.3
- pdfmarks (файл для предоставления дополнительных метаданных)
- PDFA_def.ps
- USWebCoatedSWOP.icc
С учетом вышесказанного вы используете следующую команду:
$ gs -sDEVICE=pdfwrite -q -dNOPAUSE -dBATCH -dNOSAFER \
-dPDFA -dUseCIEColor -sProcessColorModel=DeviceCMYK \
-sOutputFile=Out_PDFA.pdf PDFA_def.ps pdfmarks IN_PDF.pdf
Не без бородавок. В статье обсуждается один из них, одним из которых является фиксация флагов печати на гиперссылках. Статья предоставляет приложение Java, которое вы можете использовать для исправления этих проблем:
$ java FixPrintFlag Out_PDFA.pdf New_verifiablePDFA.pdf
Это не красиво, но кажется работоспособным. Смотрите статью для более подробной информации.
Ссылки
pdfmarks
?Для идентификации файла команда
file
часто бывает полезна. Он будет искать в вашем файле магические числа, идентификаторы файлов, информацию о кодировке и т. Д., Чтобы получить любую полезную информацию, которая может.В частном случае файлов PDF утилита
pdfinfo
особенно полезна. В моем случае это дистрибутив Gentoo, он поставляется сpoppler
библиотекой рендеринга PDF.источник
pdfinfo -meta
и глядя наxmpmeta/RDF/Description/conformance
кажется, говорит, является ли PDF PDF / A (этот узелA
) или нет (узел не существует или имеет какое-то другое значение). Это начало!Вот скрипт командной строки bash, который делает именно это:
Сохраните его в файле с именем pdf2pdfa.sh, который находится на вашем пути, а затем назовите его так:
pdf2pdfa.sh input.pdf
Это создаст input_a.pdf.
источник
input
? Понятноpdf_input
, а что естьinput
? (3) Вы должны всегда заключать в кавычки переменные оболочки, если у вас нет веских причин не делать этого, и вы уверены, что знаете, что делаете. Пожалуйста, не отвечайте в комментариях; отредактируйте свой ответ, чтобы сделать его более понятным и полным.