У меня есть сайт на сервере, который представляет собой кучу HTML-страниц, картинок и звуков.
Я потерял свой пароль к этому серверу, и мне нужно захватить все, что там хранится. Я могу переходить от страницы к странице и сохранять все, но на сайте более 100 страниц.
Я использую OSX. Я пытался использовать, wget
но я думаю, что сервер блокирует это.
Есть ли альтернатива, которую я могу использовать, чтобы получить этот контент?
Ответы:
Если сервер блокирует wget, он, скорее всего, делает это на основе поля «User-agent:» заголовка http, так как это единственный способ узнать об этом в первую очередь. Это также может быть блокировка вашего IP, в этом случае использование другого программного обеспечения не поможет, или какая-то схема, которая определяет автоматизацию на основе того, насколько быстрым является набор запросов (поскольку реальные люди не просматривают 100 страниц за 3,2 секунды) , Я не слышал, чтобы кто-то делал это, но это возможно.
Я также не слышал о способе замедления wget, но есть способ подделать поле user-agent:
Будет в соответствии с man страницей падение «User-agent:» полностью, так как это не обязательно. Если серверу это не нравится, попробуйте,
--user-agent="Mozilla/5.0"
что должно быть достаточно хорошо.Конечно, было бы полезно, если бы вы лучше объяснили, почему вы «думаете, что сервер блокирует это». Wget говорит что-нибудь или просто перерыв?
источник
wget
имеет несколько вариантов ожидания между запросами, ограничения скорости или количества скачиваемых файлов. Проверьтеinfo
страницу для деталей.Я обычно использую
httrack
для загрузки / зеркалирования веб-контента с сайта.После его запуска у вас останется структура каталогов, которая будет локальной и доступной для просмотра. Например:
По мере загрузки вы увидите следующий тип вывода:
Его можно отключить и / или прервать, а затем возобновить. Это только вершина айсберга с точки зрения его особенностей. Существует также графический интерфейс для настройки загрузки и контроля за ее ходом.
Существует обширная документация на
httrack
веб - сайте и прибегая к помощи.источник