Я хочу преобразовать документ DJVU в документ PDF, отделив и сохранив текстовый слой и изображения, а также сохранив структуру из DJVU. Как я могу сделать это в Ubuntu?
(Затем я буду использовать Caliber для конвертации в ePub / Mobi, поэтому, если бы для всего этого процесса был плагин Caliber, это было бы идеально для меня!)
Примечание 1: печать из Evince, экспорт из DJview или что-либо, использующее пакет ddjvu , не являются адекватными решениями, поскольку они отбрасывают текстовый слой, сохраняя только изображения.
Примечание 2: Использование DJVULibre, кажется, только извлекает текстовый слой, а изображения не извлекаются . Аналогично, копирование текста «вручную» приводит к потере как структуры документа, так и изображений.
Вот один из способов, который потребует некоторых не очень распространенных инструментов:
Мы можем использовать
djvu2hocr
команду (изocrodjvu
пакета), чтобы извлечь скрытый текстовый слой из файла DjVu (он не выполняет никакого распознавания текста или чего-либо подобного, он просто извлекает текстовый слой с геометрией), то есть:djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html
sed
вмешательство исправляет имена классов в выходном hOCR (который является простым HTML-файлом)Теперь мы извлекаем страницу DjVu в формат TIFF с помощью:
ddjvu -format=tiff -page=10 sample.djvu pg10.tif
так что мы заканчиваем этим файлом в нашей рабочей папке:
Вот где
pdfbeads
вступает в игру, и мы просто выполнить:pdfbeads -o pg10.pdf
затем эта изящная программа позаботится обо всем, что находится внутри этой папки (файлы HTML и TIFF с одинаковым базовым именем), и создаст выходной файл PDF с некоторыми побочными продуктами:
который идентичен входному файлу DjVu и имеет текстовый слой внутри:
Сводка комментариев:
В длинных комментариях ниже обсуждается представление небольших изображений со страницы документа DjVu в виде отдельных объектов, что нелегко сделать возможным, поскольку страница документа DjVu сама по себе представляет собой одно изображение с необязательным текстовым слоем, без «информации» о небольших изображениях в качестве отдельных объектов. Если документ DjVu имеет цветные изображения, то они обычно помещаются на фоновый слой; в этом случае пользователь может воспользоваться такими инструментами, как
ddjvu
(извлечение только фонового слоя) иimagemagick
(автообрезка), чтобы выводить только изображения вместо целого холста, но его нельзя автоматизировать для создания вывода PDFДругой более разумный, но более медленный подход - использование обычных инструментов OCR GUI.
gscan2pdf
(> 1.0) предлагается в качестве возможного кандидата на ПК с Linuxисточник
Существует djvu2pdf, но он использует ghostscript, так что это может быть другой вариант печати. Я все же предлагаю вам взглянуть на это, на всякий случай, если это будет более умным, чем я считаю.
Его нет в репозиториях, но вы можете скачать дебет с сайта создателей: http://0x2a.at/s/projects/djvu2pdf
** Вставьте обязательное уведомление о загрузке / установке вещей вне репозиториев здесь **
источник
Используя DJVULibre , можно извлечь текстовый слой с помощью
terminal
команды:djvutxt myfile.djvu > myfile-ocr.txt
илиdjvused myfile.djvu -e 'print-pure-txt' > myfile.txt
(оба делают то же самое, и были найдены здесь )
Форматирование требует определенных усилий (так как многие символы не преобразуются должным образом), а изображения не восстанавливаются .
источник
http://www.djvu-pdf.com/ - Используя этот сайт, вы можете конвертировать DJVU в PDF.
источник
Самый простой способ: использовать gscan2pdf для импорта djvu, затем распознать его с помощью tesseract и, наконец, сохранить его в формате pdf. Текст OCR в pdf может немного отличаться от оригинального djvu, и преобразование может занять некоторое время, но этот метод не составляет труда и работает.
источник
Я сделал сценарий ответа @ zetah.
Это доступно здесь: https://gist.github.com/matthieuheitz/7287e214b1aeda7948f6c27fbfb5288b
источник