Я ищу хорошую программу, чтобы показать мне различия между двумя похожими файлами PDF. В частности, я ищу что-то, что не просто запускает diff для версии ascii (с "pdftotext") файлов. Это то, что делает pdfdiff.py .
39
Я ищу хорошую программу, чтобы показать мне различия между двумя похожими файлами PDF. В частности, я ищу что-то, что не просто запускает diff для версии ascii (с "pdftotext") файлов. Это то, что делает pdfdiff.py .
Ответы:
Вы можете использовать DiffPDF для этого. Из описания:
источник
sudo apt-get install diffpdf
Хотя старая версия 2. * все еще может быть установлена через .Я только что понял, как сделать DiffPDF (программу, предложенную @qbi) пригодной для более чем незначительных изменений. Что я делаю, это объединяю все страницы PDF в длинную прокрутку, используя pdfjam, а затем сравниваю прокрутки . Это работает, даже когда большие разделы удалены или вставлены!
Вот скрипт bash, который делает эту работу:
источник
Хотя это не решает проблему напрямую, вот хороший способ сделать все это из командной строки с несколькими зависимостями:
https://linux.die.net/man/1/pdftotext
Это работает очень хорошо для базовых сравнений PDF. Если у вас есть более новая версия pdftotext, вы можете попробовать
-bbox
вместо-layout
.Что касается программ diffing, мне нравится использовать diffuse, поэтому команда немного меняется:
http://diffuse.sourceforge.net/
Надеюсь, это поможет.
источник
Если у вас есть 2-3 больших файла pdf (или epub или другие форматы, см. Ниже) для сравнения, то можно объединить следующие возможности:
калибр (для преобразования вашего источника в текст)
meld (для визуального поиска различий между текстовыми файлами)
параллельно (чтобы ускорить использование всех ядер вашей системы)
Ниже скрипт принимает в качестве входных данных любой из следующих форматов файлов: MOBI, LIT, PRC, EPUB, ODT, HTML, CBR, CBZ, RTF, TXT, PDF и LRS.
Если не установлено, то установите соединение, калибр и параллель:
Чтобы иметь возможность выполнять код из любой точки вашего компьютера, сохраните следующий код в файле с именем «difpub» (без расширений) в каталоге «/ usr / local / bin».
Убедитесь, что владелец является вашим пользователем и у него есть права на выполнение:
Чтобы проверить это, просто наберите:
Я проверяю его, чтобы сравнить 2 ревизии +1600 страниц PDF, и он отлично работает. Поскольку Calibre написан с использованием Python для переносимости, преобразование обоих файлов в текст заняло 10 минут. Медленно, но надежно.
источник