Я хотел бы сохранить эту веб-страницу и все страницы, на которые она ссылается. и надеемся, что между сохраненными веб-страницами будет такая же связь.
Есть ли способы вместо открытия и сохранения каждой связанной страницы?
Я хотел бы сохранить эту веб-страницу и все страницы, на которые она ссылается. и надеемся, что между сохраненными веб-страницами будет такая же связь.
Есть ли способы вместо открытия и сохранения каждой связанной страницы?
Вы можете делать то, что хотите, с помощью утилиты командной строки wget . Если вы предоставите ему -r
опцию, он будет рекурсивно загружать веб-страницы. Например:
wget -r http://mat.gsia.cmu.edu/orclass/integer/integer.html
Это загрузит эту веб-страницу и все, на что она ссылается. Вы также можете сделать так, чтобы он проходил только определенное количество уровней, для этого вам просто нужно указать -r
номер. Вроде такой:
wget -r 5 http://mat.gsia.cmu.edu/orclass/integer/integer.html
Эта тема старая, но другие могут посмотреть на нее. Спасибо, Вуфферс, за то, что указали мне правильное направление, но в продолжение ответа Вуфферса: современная версия wget имеет ряд полезных опций для повторяющихся ссылок и их исправления как локальных относительных ссылок, так что вы можете перемещаться по локальной копии. веб-сайта. Используйте параметр -r для рекурсии, параметр -k для исправления локальных ссылок, параметр -H для перехода в домены, отличные от исходного, параметр -D для ограничения областей, в которые вы переходите, параметр -l для ограничения глубина рекурсии и опция -p, чтобы убедиться, что листья вашего обхода имеют все необходимое для правильного отображения. Например, следующая программа загрузит страницу и все, на что она сразу ссылается, что делает ее доступной для локального просмотра,
wget -r -l 1 -p -k -H -D domain.com,relateddomain.com http://domain.com/page/in/domain
Используя команду, аналогичную приведенной выше, я смог загрузить кусок вики-страницы с внешними ссылками на свой локальный диск, не загружая мегабайты посторонних данных. Теперь, когда я открываю корневую страницу в своем браузере, я могу перемещаться по дереву без подключения к Интернету. Единственным раздражителем было то, что корневая страница была похоронена в подкаталогах, и мне пришлось создать страницу перенаправления верхнего уровня, чтобы ее было удобно отображать. Может потребоваться некоторое количество проб и ошибок, чтобы понять это правильно. Прочитайте справочную страницу wget и поэкспериментируйте.
источник
Вы можете использовать сканер веб-сайтов, такой как httrack , который является бесплатным.
С веб-сайта;
источник