Преобразование DJVU в PDF

40

Я хочу преобразовать документ DJVU в документ PDF, отделив и сохранив текстовый слой и изображения, а также сохранив структуру из DJVU. Как я могу сделать это в Ubuntu?

(Затем я буду использовать Caliber для конвертации в ePub / Mobi, поэтому, если бы для всего этого процесса был плагин Caliber, это было бы идеально для меня!)

Примечание 1: печать из Evince, экспорт из DJview или что-либо, использующее пакет ddjvu , не являются адекватными решениями, поскольку они отбрасывают текстовый слой, сохраняя только изображения.

Примечание 2: Использование DJVULibre, кажется, только извлекает текстовый слой, а изображения не извлекаются . Аналогично, копирование текста «вручную» приводит к потере как структуры документа, так и изображений.

hayd
источник

Ответы:

38

Способ 1

Просто используйте DJView и экспортируйте как PDF

  1. Goto Synaptic Package Manager
  2. Установить DJview4
  3. Запустите DJview (Приложения - Графика - DJView4)
  4. Откройте документ .djvu
  5. : Меню - Экспортировать как: PDF

Способ 2

Откройте файл djvu в evince
Выберите print ----> print to file,
измените .ps в .pdf и нажмите print

Способ 3

  1. Goto Synaptic Package Manager
  2. устанавливать

    djvulibre-bin libdjvulibre21 okular-extra-backends evince libevdocument3 libevview3

  3. Перейти к терминалу и написать

     sudo apt-get install libtiff-tools
    
  4. Перейдите в каталог, где находится файл djvu. Нажмите правую кнопку мыши. Перейти к «Открыть в терминале» вариант. Нажмите здесь. Терминал откроется.

  5. В этом терминале напишите

    ddjvu -format=tiff file_name.djvu file_name.tiff
    tiff2pdf -j -o file_name.pdf file_name.tiff
    

Способ 4

Существует также онлайн конвертер DjVu в PDF конвертер

Ашу
источник
@Ashu Вы уверены, что это возвращает фотографии?
Хайд
Да, метод 1 и 2 сработал для меня. не пробовал в течение 3 и .4
Ашу
@ Ашу, это извлечение картинок или просто копирование всей страницы? (это имеет смысл?)
Хайд
Вы пробовали любой метод? попробуйте и посмотрите, работает ли он
Ашу
2
Это не (получить изображения или текст).
Хайд
17

Вот один из способов, который потребует некоторых не очень распространенных инструментов:

  1. ocrodjvu
  2. pdfbeads , у которого есть свои требования, которые можно найти в Google

Мы можем использовать djvu2hocrкоманду (из ocrodjvuпакета), чтобы извлечь скрытый текстовый слой из файла DjVu (он не выполняет никакого распознавания текста или чего-либо подобного, он просто извлекает текстовый слой с геометрией), то есть:

djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html

sed вмешательство исправляет имена классов в выходном hOCR (который является простым HTML-файлом)

Теперь мы извлекаем страницу DjVu в формат TIFF с помощью:

ddjvu -format=tiff -page=10 sample.djvu pg10.tif

так что мы заканчиваем этим файлом в нашей рабочей папке:

sample.djvu
pg10.html
pg10.tif

Вот где pdfbeadsвступает в игру, и мы просто выполнить:

pdfbeads -o pg10.pdf

затем эта изящная программа позаботится обо всем, что находится внутри этой папки (файлы HTML и TIFF с одинаковым базовым именем), и создаст выходной файл PDF с некоторыми побочными продуктами:

sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym

который идентичен входному файлу DjVu и имеет текстовый слой внутри:

введите описание изображения здесь

Сводка комментариев:

В длинных комментариях ниже обсуждается представление небольших изображений со страницы документа DjVu в виде отдельных объектов, что нелегко сделать возможным, поскольку страница документа DjVu сама по себе представляет собой одно изображение с необязательным текстовым слоем, без «информации» о небольших изображениях в качестве отдельных объектов. Если документ DjVu имеет цветные изображения, то они обычно помещаются на фоновый слой; в этом случае пользователь может воспользоваться такими инструментами, как ddjvu(извлечение только фонового слоя) и imagemagick(автообрезка), чтобы выводить только изображения вместо целого холста, но его нельзя автоматизировать для создания вывода PDF

Другой более разумный, но более медленный подход - использование обычных инструментов OCR GUI. gscan2pdf(> 1.0) предлагается в качестве возможного кандидата на ПК с Linux

zetah
источник
Правильно ли я считаю, что это не извлекает отдельные данные изображения, а только изображение всей страницы?
Хайд
Что вы подразумеваете под «индивидуальными данными изображения», когда ссылаетесь на структуру файла DjVu?
Зета
может ли он обрезать изображения из документа в виде небольших изображений, помещаемых поверх PDF (например, чтобы они могли экспортироваться в HTML)
hayd
В структуре файла DjVu такого определения нет. Выше примерное изображение в оригинальном документе DjVu «помещается» на слой / маску переднего плана вместе с изображением символов, и есть отдельный текстовый слой, который был извлечен, как объяснено. Если в документе DjVu есть цветные изображения, они будут размещены на фоновом слое по всей странице (в общем составном файле DjVu). Понятно, что вы можете ожидать, что изображения на странице документа DjVu - это отдельные объекты, а не они. Посмотрите на страницу документа DjVU как на одно изображение с необязательным текстовым слоем, это в основном то, чем оно является.
Зета
1
@zetah - дополнительная информация, которую вы дали в комментариях, должна быть действительно добавлена ​​к ответу, поскольку она предоставляет ценную информацию о размещении изображений в структуре и о том, что вы ожидаете при извлечении.
fossfreedom
4

Существует djvu2pdf, но он использует ghostscript, так что это может быть другой вариант печати. Я все же предлагаю вам взглянуть на это, на всякий случай, если это будет более умным, чем я считаю.

Его нет в репозиториях, но вы можете скачать дебет с сайта создателей: http://0x2a.at/s/projects/djvu2pdf

** Вставьте обязательное уведомление о загрузке / установке вещей вне репозиториев здесь **

Оли
источник
1
Боюсь, djvu2pdf использует ddjvu для экспорта в PDF, который экспортирует изображения без текста.
Хайд
4

Используя DJVULibre , можно извлечь текстовый слой с помощью terminalкоманды:

djvutxt myfile.djvu > myfile-ocr.txt или djvused myfile.djvu -e 'print-pure-txt' > myfile.txt

(оба делают то же самое, и были найдены здесь )

Форматирование требует определенных усилий (так как многие символы не преобразуются должным образом), а изображения не восстанавливаются .

hayd
источник
Это хорошо для преобразования книг без изображения в формате DJVU, но не для документов с изображениями. Это текущее решение для меня на данный момент, и единственное, чтобы извлечь текст. Способ сохранения форматирования и изображений будет гораздо предпочтительнее!
Хайд
0

http://www.djvu-pdf.com/ - Используя этот сайт, вы можете конвертировать DJVU в PDF.

Любопытный Ученик
источник
я уже разместил этот сайт, братан
Ашу
Это кажется поддельным сайтом. Я получаю это сообщение после преобразования: извините, вы не можете загрузить этот файл.
Corev
0

Самый простой способ: использовать gscan2pdf для импорта djvu, затем распознать его с помощью tesseract и, наконец, сохранить его в формате pdf. Текст OCR в pdf может немного отличаться от оригинального djvu, и преобразование может занять некоторое время, но этот метод не составляет труда и работает.

Fazul
источник
1
Здравствуйте, чтобы сделать это более полезным ответом, вы могли бы немного подробнее рассказать о том, где можно получить и использовать gscan2pdf и tesseract.
NGRhodes