Как я могу скачать весь сайт?

81

Я хочу скачать весь сайт (с под-сайтами). Есть ли какой-нибудь инструмент для этого?

UAdapter
источник
1
что именно вы пытаетесь достичь? заголовок и содержание вашего вопроса не связаны, а содержание не является конкретным.
RolandiXor
Обратите внимание, что только следующие ссылки (например, использование --convert-linksв wget) не будут показывать сайты, которые открываются только путем отправки формы, среди прочего.
Стивен

Ответы:

140

Попробуйте пример 10 здесь :

wget --mirror -p --convert-links -P ./LOCAL-DIR WEBSITE-URL
  • –mirror : включить опции, подходящие для зеркалирования.

  • -p : скачать все файлы, которые необходимы для правильного отображения заданной HTML-страницы.

  • --convert-links : после загрузки преобразуйте ссылки в документе для локального просмотра.

  • -P ./LOCAL-DIR : сохранить все файлы и каталоги в указанный каталог.
shellholic
источник
Есть ли способ загрузить только определенные страницы (например, несколько частей статьи, которая распространяется на несколько HTML-документов)?
don.joey
@Private Да, хотя, вероятно, проще использовать python или что-то для получения страниц (в зависимости от макета / URL). Если URL страниц отличается постоянно растущим числом или у вас есть список страниц, вы, вероятно, можете использовать wget в скрипте bash.
Виртуальность
2
Вы можете использовать --wait=secondsаргумент, если хотите быть более дружелюбным к сайту; он будет ждать указанное количество секунд между поисками.
belacqua
вышеописанное работает, но для joomla параметризованный URL создает файлы, которые не связаны локально. Один из них работал для меня: wget -m -k -K -E your.domain.com отсюда: vaasa.hacklab.fi/2013/11/28/…
M.Hefny
1
Также --no-parent"никогда не подниматься в родительский каталог", взятый отсюда .
Даниэль
38

HTTrack для Linux копирует сайты в автономном режиме

httrack - это инструмент, который вы ищете.

HTTrack позволяет вам загружать сайт World Wide Web из Интернета в локальный каталог, рекурсивно собирая все каталоги, передавая HTML, изображения и другие файлы с сервера на ваш компьютер. HTTrack организует относительную структуру ссылок исходного сайта.

Sid
источник
7

Поскольку wgetвы можете загрузить весь веб-сайт, вы должны использовать -rпереключатель для рекурсивной загрузки. Например,

wget -r http://www.google.com
Артур Кноппер
источник
6

WEBHTTRACK WEBITE COPIER - это удобный инструмент для загрузки целого веб-сайта на жесткий диск для просмотра в автономном режиме. Запустите центр программного обеспечения Ubuntu и введите «webhttrack website copier» без кавычек в поле поиска. выберите и загрузите его из центра программного обеспечения в вашу систему. Запустите webHTTrack либо из лаучера, либо из меню «Пуск», оттуда вы сможете начать пользоваться этим замечательным инструментом для загрузки вашего сайта.

фризер
источник
3

Я не знаю о поддоменах, то есть о подсайтах, но wget можно использовать для получения полного сайта. Посмотрите на этот вопрос суперпользователя . Это говорит о том, что вы можете использовать -D domain1.com,domain2.comдля загрузки разных доменов в один скрипт. Я думаю, что вы можете использовать эту опцию для загрузки поддоменов, т.е.-D site1.somesite.com,site2.somesite.com

binW
источник
1

Я использую Burp - инструмент spider гораздо более интеллектуален, чем wget, и его можно настроить так, чтобы при необходимости избегать секций. Сам Burp Suite - это мощный набор инструментов, помогающий в тестировании, но инструмент-паук очень эффективен.

Рори Олсоп
источник
1
Разве Windows отрыжка не только? Лицензионное соглашение с закрытым исходным кодом для Burp также довольно тяжелое. Не говоря уже о ценнике $ 299,00:
Kat Amsterdam
из лицензии: ПРЕДУПРЕЖДЕНИЕ: БЕСПЛАТНОЕ ИЗДАНИЕ BURP SUITE ПРЕДНАЗНАЧЕНО ДЛЯ ТЕСТИРОВАНИЯ ПРОБЛЕМ БЕЗОПАСНОСТИ И МОЖЕТ ПОВРЕЖДАТЬ СИСТЕМУ ЦЕЛЕЙ ИЗ-ЗА ПРИРОДЫ ЕГО ФУНКЦИОНАЛЬНОСТИ. ТЕСТИРОВАНИЕ ПРОБЛЕМ БЕЗОПАСНОСТИ НАСЛЕДСТВЕННО ЗАКЛЮЧАЕТ ВЗАИМОДЕЙСТВИЕ С ЦЕЛЯМИ В НЕСТАНДАРТНЫХ СПОСОБАХ, КОТОРЫЕ МОГУТ ПРИЧИНИТЬ ПРОБЛЕМЫ В НЕКОТОРЫХ УЯЗВИМЫХ ЦЕЛЯХ. ВЫ ДОЛЖНЫ ПРИНЯТЬ УХОД ЗА ИСПОЛЬЗОВАНИЕМ ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ, ВЫ ДОЛЖНЫ ПРОЧИТАТЬ ВСЕ ДОКУМЕНТАЦИЮ ПЕРЕД ИСПОЛЬЗОВАНИЕМ, ВЫ ДОЛЖНЫ СОЗДАТЬ СИСТЕМУ ЦЕЛЕВЫХ ПЕРЕД ИСПОЛЬЗОВАНИЕМ, И НЕ ДОЛЖНЫ ИСПОЛЬЗОВАТЬ ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ В СИСТЕМАХ ПРОИЗВОДСТВА ИЛИ ДРУГИХ СИСТЕМ, КОТОРЫЕ НЕ ВЫ ИСПОЛЬЗУЕТЕ, КОТОРОЕ ВЫ ИСПОЛЬЗУЕТЕ, КОТОРОЕ ВЫ ИСПОЛЬЗУЕТЕ, КОГДА ВЫ НЕ ИСПОЛЬЗУЕТЕ, КОТОРОЕ ВЫ ИСПОЛЬЗУЕТЕ, КОТОРОЕ ВЫ ИСПОЛЬЗУЕТЕ ДЛЯ ТОГО, КАК ВЫ ИСПОЛЬЗУЕТЕ, КОГДА ВЫ НЕ ИМЕЕТЕ УСТРАНЕНИЕ ,
Кэт Амстердам
За то, что он делает, цена удивительно дешевая - я бы порекомендовал купить ее для широкого спектра тестирования безопасности. И очень легко настроить его так, чтобы тестировать именно так, как вы хотите - в некоторых случаях безопаснее, чем AppScan :-)
Rory Alsop
1
@KatAmsterdam Что касается конкретно вопроса совместимости: согласно Википедии , Burp Suite является Java-приложением, поэтому оно должно нормально работать в Ubuntu.
Элия ​​Каган
Кэт - он отлично работает на разных версиях Linux. Предупреждение о лицензии аналогично любому инструменту, который вы можете использовать для оценки безопасности.
Рори Олсоп
1

Вы можете скачать всю команду сайта:

wget -r -l 0 website

Пример :

wget -r -l 0 http://google.com
Хариш Котикалапуди
источник
Не могли бы вы объяснить, как работает эта команда? Что оно делает?
Каз Вулф
0

Если скорость имеет значение (а благополучие сервера - нет), вы можете попробовать puf , который работает как wget, но может загружать несколько страниц параллельно. Это, однако, не готовый продукт, не поддерживается и ужасно без документов. Тем не менее, для загрузки веб-сайта с большим количеством мелких файлов, это может быть хорошим вариантом.

loevborg
источник