Как конвертировать PDF в формат электронной книги

8

Есть ли способ конвертировать PDF-документ в формат электронной книги, такой как epub, azw или mobi? Я ищу приложение, которое быстро конвертируется. Я только что попробовал калибр. Через 10 минут даже 2% конверсии не было достигнуто. Поэтому, пожалуйста, не калибр. CLI является предпочтительным.

ManuelSchneid3r
источник

Ответы:

6

Вы должны попробовать pdftotext(входит в пакет под Ubuntu poppler-utils). Это конвертер командной строки. Предполагается, что PDF имеет текст и не состоит только из изображений.

Если файл PDF состоит из изображений (без информации об оптическом распознавании символов), вы должны использовать решение для оптического распознавания текста, которое намного медленнее.

Я также успешно использовал метод распознавания текста в PDF-тексте, который был скремблирован (путем размещения отдельных символов на странице нелинейным способом). Затем вы используете, например, pdftoppmчтобы получить отдельные изображения страниц и OCR те.

Энтон
источник
6

Я обычно использую Caliber , чтобы конвертировать из различных форматов (epub, mobi и pdf). С ним довольно просто конвертировать, вот скриншот, есть и другие, а также видеоурок .

Скриншот

   калибр

SLM
источник
3
Какая часть "пожалуйста, не калибр" неясно?
mlp
5
Когда отвечаете на вопросы на любом сайте SE, вы обслуживаете как OP, так и любого, кто найдет эту ветку вопросов и ответов в будущем. Этот ответ предназначен для охвата всех основ для этих лиц. Также Calibre может быть лучшим вариантом, возможно, у OP была ошибочная версия ИЛИ она была неправильно настроена. Я использовал его десятки раз, и он отлично справляется с конвертацией.
SLM
Я не могу преобразовать файл pfd в epub с фиксированной разметкой. Не могли бы вы сказать мне, какие шаги необходимо выполнить, чтобы преобразовать PDF в EPUB с фиксированным макетом.
Мохан Ротур
1

Я должен был сделать это для файла PDF один раз, и это было результатом (используя pdftohtml от poppler):

#!/bin/bash

pwddir="`pwd`"
tmpdir="`mktemp -d`"

pdftohtml -enc UTF-8 -noframes -p -nomerge -nodrm -q "$1" "$tmpdir"/index

cd "$tmpdir"

sed -e :a -e '$!N;s/\n/ /;ta' \
    -i index.html 

sed -e 's@ @ @g' \
    -e 's@<hr>@ @g' \
    -e 's@<br/>\s*<br/>@</p><p>@g' \
    -e 's@<br/>@ @g' \
    -i index.html

tidy -utf8 -i -wrap 9999999 -m index.html

sed -e 's@<a name="[^"]*"></a>@@g' \
    -i index.html

rm "$pwddir"/"$1".zip
zip "$pwddir"/"$1".zip *

Поток почтовый индекс в Калибр и преобразовать в EPUB. Отфильтруйте все свойства CSS (такие как цвета, шрифты).

Каждый файл PDF отличается - нет окончательного решения. Вышеописанное сработало для одного конкретного случая - вы должны ослабить pdftohtml / pdftotext, а затем настроить вывод в соответствии с вашими потребностями.

Если это не поможет, и вам придется прибегнуть к OCR, мне повезло с клинописью. Но также попробуйте tesseract, ocrad, gocr. Однако все это требует ручного труда для хорошего результата.

frostschutz
источник