Создать PDF из HTML книги

16

Есть некоторые сайты, которые предоставляют книги в виде HTML-страниц (например, юридические материалы).

Что я могу использовать для создания книги PDF на этих страницах, основываясь на уже существующей структуре?

В Windows есть Adobe Professional (коммерческое программное обеспечение). Я предполагаю, что в Linux есть что-то бесплатное? Решение с использованием сценариев будет в порядке для меня.

Люсьен Сасу
источник

Ответы:

9

Калибр - довольно мощный инструмент для преобразования вещей в электронные книги в различных форматах. Доступно в Центре программного обеспечения рядом с вами!

Не обманывайтесь его менее красивым пользовательским интерфейсом, он может многое сделать.

Оли
источник
1
Калибр также поставляется с инструментом командной строки, ebook-convert. Таким образом, с этим вы можете сделать, for file in *.html ; do ebook-convert "$file" "${file%.html}.pdf" ; doneи он будет конвертировать все HTML-файлы в папке в PDF.
безумно
1
Это хороший инструмент, я также являюсь пользователем Calibre, я думаю, что последний из них значительно улучшил пользовательский интерфейс.
Сабакон
4

Самый простой способ? Файл> Печать из вашего браузера. Выберите Print to File в качестве вашего принтера, и он спросит вас, где вы хотите. Обязательно отметьте PDF. Нажмите «Печать», и он будет фактически сохранен на вашем диске вместо фактической печати.

Джейкоб Педдикорд
источник
Благодарю. Однако файлов много. Этот маневр практически невозможен.
Лучан Сасу
4

Htmldoc может быть полезен, посмотрите здесь; http://www.htmldoc.org/ он доступен в центре программного обеспечения, к сожалению, версия 1.8 имеет проблему с файлами в кодировке Unicode, но во многих случаях она все еще может быть спасителем, проблема исправлена ​​в версии для разработчиков 1.9.

Я обычно использую замечательное расширение альбома для вырезок; http://amb.vis.ne.jp/mozilla/scrapbook/ для Firefox для захвата веб-страниц, используйте инструменты редактирования в записках, чтобы исправить их, если это необходимо, а затем используйте htmldoc для преобразования всех страниц в PDF.

Sabacon
источник
3

Я бы порекомендовал использовать OpenOffice / LibreOffice для создания PDF. В качестве теста я загрузил Wget manul (все на одной странице), а затем открыл HTML-страницу в OponOffice и нажал кнопку «Экспорт напрямую в PDF». Он создал PDF с указателем из оглавления.

В прошлом я обнаружил, что это самый простой способ конвертировать HTML-страницы в PDF. Это также позволяет вносить изменения без особых усилий.

Скриншоты:

  • Руководство Wget экспортируется в PDF с помощью Open Office Руководство Wget экспортируется в PDF с помощью Open Office

  • Экспортировать напрямую в PDF вариант в Open Office Экспортировать напрямую в PDF вариант в Open Office

SiliconChaos
источник
есть идеи, если книга не на одной странице, а разбита на несколько глав / разделов?
Ciprian Tomoiagă
2

Я на самом деле проголосовал за решение калибра. Но вот еще один, который вы можете попробовать. Установите AbiWord . Он может выполнять преобразования между любыми форматами, которые он знает из командной строки. Чтобы преобразовать все файлы .html в папке в .pdf, вы можете сделать следующее:

for file in *.html ; do abiword --to=pdf "$file" ; done

Для высокоуровневой типографии (но, возможно, более сложной) другим вариантом будет PrinceXML .

радостный
источник
2

В зависимости от HTML-документа, который будет напечатан, вы можете получить наилучшие результаты при использовании pandoc . Это один из самых универсальных конвертеров HTML-LaTeX. Полученный файл .tex можно легко преобразовать в PDF с помощью xelatexили pdflatex. Множество вариантов доступно, если вы хотите углубиться в синтаксис и пакеты LaTeX. Это может не сработать, если нужно сохранить встроенные изображения и причудливые стили HTML.

loevborg
источник
1

В google-chrome вы можете создать PDF-файл для всего сайта, используя расширение. Я лично использую расширение конвертера Web2PDF, которое делает PDF одним щелчком мыши.

Вот скриншот этого плагина, предоставленного сайтом расширений Google.

введите описание изображения здесь

Кроме того, вы можете просмотреть PDF-файл, созданный мной с помощью этого инструмента, загрузив следующий файл ( щелкните правой кнопкой мыши , сохраните цель как): http://geppettvs.servehttp.com/resources/askubuntu-com.pdf (некоторые браузеры, такие как google- Chrome может позволить вам увидеть это онлайн).

И если вы хотите редактировать PDF-файлы, созданные расширением, чтобы удалить цифровую подпись, размещенную расширением в нижней части каждой страницы, или удалить что-либо еще, взгляните на это: Удалить текстовую информацию из PDF?

Удачи!

Geppettvs D'Constanzo
источник