Я ищу способ конвертировать веб-страницу в PDF, но сохранить внешний вид веб-страницы. Также сохраняющий текст веб-страницы (выбираемый), доступный для поиска [Создание снимка экрана для веб-страницы не сделает текст ни выбираемым, ни доступным для поиска].
Я ищу печать веб-страницы в формате PDF как есть (как в веб-браузере) без каких-либо манипуляций со стилем или выравниванием или без потери статических компонентов любой веб-страницы.
Это поможет сохранить автономные копии веб-страниц, которые легко читаются, комментируются и доступны для поиска.
Вам не нужно читать что-либо из нижеперечисленного (вопрос - это только вышеупомянутый раздел) , чтобы получить мой вопрос. Следующий раздел просто перечисляет то, что я получил путем исследований или ответов других людей, чтобы получить ответ на вопрос.
Результаты исследований (предложения, которые не решили мою проблему)
Результаты до сих пор при попытке найти решение (Все еще не работают в качестве решения для этого вопроса)
Я пробовал эти механизмы веб-печати в формате PDF, но все они манипулируют внешним видом страниц, даже более повреждая и делая некоторые трудно читаемые: ( Примеры скриншотов страниц включены в квадратные скобки)
- Chrome [ Оригинал , Стили печати ( отключено | не отключено )]
- Firefox [ Оригинал , Стили печати (Отключено p1 , p2 | Не отключено p1 , p2 )]
- читабельность
- Это упрощает веб-страницу (что хорошо для целенаправленного чтения - однако это не то, что я ищу). Я ищу для сохранения всех свойств позиций / стилей веб-страницы, как видно в веб-браузере, в формате PDF без каких-либо манипуляций.
- Foxit Reader
- NovaPDF
- CutyCapt [ Original , Zoom Factor: 0.4 : Скриншоты, Вывод PDF]
- Я добавлю ссылки после того, как решу проблемы с запуском программы на Windows "
- wkhtmltopdf [ Original , Zoom Factor: 0.4 : Скриншоты , Вывод PDF ]
- Он не поддерживает CSS3.
Все перехватывающие плагины скриншот веб - страницы изображения (например , похищение , Потрясающие Скриншот , FireShot , Firefox Скриншот Developer Tool , на всю страницу захвата экрана , Page2Images , веб-захвата , ...) не ответили на мой вопрос, потому что они не сохраняют текст и ссылки .
Scrible отлично подходит для сохранения веб-страниц, а также для дальнейших аннотаций и исследований, но, к сожалению, все еще в сети и без преобразования в формат PDF.
Есть два других вопроса о сообществе, похожих как-то на мой, однако, этот вопрос немного отличается, но с такими важными отличиями:
- Как получить WYSIWYP (распечатать то, что вы видите) в веб-браузере?
- Этот вопрос спрашивает о способе захвата веб-страницы (как видно на экране) в любом случае, даже если это изображение и текст не будет сохранен. Принимая во внимание, что я ищу захват текста и ссылок также ( важно сохранить текст и ссылки ).
Еще похожие вопросы, где сохранение текста и ссылок не является обязательным (страницы в основном представлены в виде снимков экрана ):
- Печать из браузера с помощью CSS экрана?
- Он спрашивает об отключении стилей печати, что, похоже, не помогает из приведенных выше снимков экрана.
Примечания
ОС: Windows 10
Ответы:
Мы столкнулись с той же проблемой в проекте университета и смогли решить ее, используя
wkhtmltopdf
Нам вполне понравились возможности этого инструмента в командной строке. Мы также назвали это, используя код Python для отображения текущего состояния веб-страниц. Он имеет возможность доставки веб-страницы в формате pdf, обычно не идеальной для сохранения вида веб-сайта из-за форматирования страницы (например, A4), или в виде png (сохраняет вид страницы, но не ссылки)
Кроме того, мы использовали проект читабельности (для Python: pypi.python.org/pypi/readability-lxml), который достаточно хорошо удаляет рекламу и обнаруживает контент (например, для газетных статей и т. П.). Если вы просто хотите добавить дополнение или расширение для своего браузера, следующая реализация читабельности может удовлетворить ваши потребности:
https://www.readability.com/addons/
источник
Внесение другого ответа для возможных пользователей. В Firefox раньше было дополнение «Печать страниц в PDF». Вы можете искать его последнюю версию 0.1.9.3 (работайте только с пре-квантовыми версиями).
В настоящее время это дополнение для Chrome и Firefox, которое работает довольно хорошо: PDFMage
источник
Я действительно боролся с этим и попробовал большинство инструментов, которые упомянуты до сих пор. Наилучшие результаты, которые я получил, это использование безголового режима Chrome. Команда на MacOS будет выглядеть так:
Лучший список параметров командной строки, который я нашел, был здесь .
Однако с этим были проблемы. В частности, мои страницы очень тяжелые на JavaScript, и я не мог заставить функцию печати ждать их завершения. Так что в моем выводе не было изображений.
Решение , которое я нашел был пакет nodeJS:
chrome-headless-render-pdf
. Это скудная документация здесь . Это работает, и это легко сценарий.источник
У меня была такая же проблема, и я понял это через Chrome и с бесплатным драйвером принтера PDF995. Это часть пакета утилит PDF; веб-сайт издателя http://www.pdf995.com/ .
Тем не менее, я думаю, что любой веб-браузер и любой PDF-конвертер будет достаточно. Во всяком случае, вот что я сделал:
Щелкните правой кнопкой мыши на выделенном выделении или нажмите Ctrl + P (оба варианта дают несколько разные результаты, но вы получите тот же результат после завершения).
Если вы щелкнули правой кнопкой мыши в 2., выделение (ярлык), нажмите «печать», и только все, что вы выбрали, будет в предварительном просмотре печати. Убедитесь, что вы изменили место назначения принтера на любой конвертер PDF, который вы решили использовать (PDF995 или другой).
Нажмите «печать», и он сохранится в формате PDF.
Если вместо этого вы нажали Ctrl + P в 2. (немного более длинный путь), нажмите «Дополнительные настройки» и прокрутите вниз до «Параметры».
Нажмите на поле с надписью «Только выбор», и все, что я описал в ярлыке, последует.
Не забудьте сменить место назначения принтера на любой конвертер PDF, который вы выберете (PDF995 или другой).
Нажмите «распечатать».
источник
Если вы работаете в Linux, попробуйте этот небольшой инструмент командной строки CutyCapt , который зависит только от Qt и QtWebkit и экспортирует в PDF.
источник
Хотя это не совсем ваш запрос, как не в PDF, если цель состоит в том, чтобы просто сохранить автономную копию веб-страниц для последующего просмотра, сохранение именно как веб-страницы сделает именно это.
Большое предостережение заключается в том, что он создаст файл .html и папку со всем медиаконтентом на странице, а не в виде одного документа.
В Chrome и Firefox вы можете сохранить страницу, щелкнув по ней правой кнопкой мыши и выбрав «Сохранить как ...». В Internet Explorer вы можете сохранить ее в меню «Файл» -> «Сохранить как» (нажав клавишу «Alt» для отображения меню).
источник
Попробуйте этот сервис. Создает PDF с веб-сайта, как вы видите его в браузере. https://lomotoh.com/ (я связан с этим сайтом)
источник
По крайней мере, весь текст на некоторых страницах доступен для поиска, выбора, вырезания и вставки. Я попробовал на странице, вставленной роботом с помощью компьютера из текста и пикселя, и он превратил все это в изображение.
Я использовал эти вещи в течение многих лет. Я получаю лучшие результаты в Linux, перестраивая страницу в XX слове по вашему выбору и экспортируя результат в формате PDF. Я могу получить то, что хочу, за значительную цену. Из арки моего ограниченного использования ivin Сайт Дэвида Херса, размещенный на https://lomotoh.com/ (я НЕ связан с этим сайтом), работает так же хорошо, как и любой другой, который я когда-либо использовал. Я буду моим источником информации о веб-страницах в формате PDF до тех пор, пока я не найду лучшее, или мне не придется платить слишком дорого из своего тонкого кошелька.
источник