Альтернативы wget

13

У меня есть сайт на сервере, который представляет собой кучу HTML-страниц, картинок и звуков.

Я потерял свой пароль к этому серверу, и мне нужно захватить все, что там хранится. Я могу переходить от страницы к странице и сохранять все, но на сайте более 100 страниц.

Я использую OSX. Я пытался использовать, wgetно я думаю, что сервер блокирует это.

Есть ли альтернатива, которую я могу использовать, чтобы получить этот контент?

Spacedog
источник
Если у вас есть физический доступ к серверу, загрузитесь в однопользовательском режиме и восстановите свой пароль. debuntu.org/…
spuder

Ответы:

15

Если сервер блокирует wget, он, скорее всего, делает это на основе поля «User-agent:» заголовка http, так как это единственный способ узнать об этом в первую очередь. Это также может быть блокировка вашего IP, в этом случае использование другого программного обеспечения не поможет, или какая-то схема, которая определяет автоматизацию на основе того, насколько быстрым является набор запросов (поскольку реальные люди не просматривают 100 страниц за 3,2 секунды) , Я не слышал, чтобы кто-то делал это, но это возможно.

Я также не слышал о способе замедления wget, но есть способ подделать поле user-agent:

wget --user-agent=""

Будет в соответствии с man страницей падение «User-agent:» полностью, так как это не обязательно. Если серверу это не нравится, попробуйте, --user-agent="Mozilla/5.0"что должно быть достаточно хорошо.

Конечно, было бы полезно, если бы вы лучше объяснили, почему вы «думаете, что сервер блокирует это». Wget говорит что-нибудь или просто перерыв?

лютик золотистый
источник
о, да! Благодарю. Я упустил это на помощь wget. Это работает сейчас !!!!!!!!!!!!!!!!!!!!!!!!
SpaceDog
5
wgetимеет несколько вариантов ожидания между запросами, ограничения скорости или количества скачиваемых файлов. Проверьте infoстраницу для деталей.
Стефан Шазелас
6

Я обычно использую httrackдля загрузки / зеркалирования веб-контента с сайта.

$ httrack http://2011.example.com -K -w -O . -%v --robots=0 -c1 %e0

После его запуска у вас останется структура каталогов, которая будет локальной и доступной для просмотра. Например:

$ ls -l
total 304
-rw-r--r--  1 saml saml   4243 Aug 17 10:20 backblue.gif
-rw-r--r--  1 saml saml    828 Aug 17 10:20 fade.gif
drwx------  3 saml saml   4096 Aug 17 10:20 hts-cache
-rw-rw-r--  1 saml saml    233 Aug 17 10:20 hts-in_progress.lock
-rw-rw-r--  1 saml saml   1517 Aug 17 10:20 hts-log.txt
-rw-------  1 saml saml 271920 Aug 17 10:22 hts-nohup.out
-rw-r--r--  1 saml saml   5141 Aug 17 10:20 index.html
drwxr-xr-x 10 saml saml   4096 Aug 17 10:21 2011.example.com

По мере загрузки вы увидите следующий тип вывода:

Bytes saved:    21,89KiB           Links scanned:   12/45 (+4)
Time:   2s                         Files written:   4
Transfer rate:  2,65KiB/s (2,65KiB/s)  Files updated:   1
Active connections:     1          Errors:  7

Current job: parsing HTML file (57%)
 request -  2011.example.com/cgi-bin/hostnames.pl   0B /    8,00KiB

Его можно отключить и / или прервать, а затем возобновить. Это только вершина айсберга с точки зрения его особенностей. Существует также графический интерфейс для настройки загрузки и контроля за ее ходом.

Существует обширная документация на httrackвеб - сайте и прибегая к помощи.

SLM
источник