Я хочу сканировать ссылки по адресу www.website.com/XYZ и загружать только те ссылки, которые находятся по адресу www.website.com/ABC.
Я использую следующую команду wget для получения нужных мне файлов:
wget -I ABC -r -e robots=off --wait 0.25 http://www.website.com/XYZ
Это прекрасно работает, когда я использую wget 1.13.4. Но проблема в том, что я должен использовать эту команду на сервере с wget 1.11, и когда я использую ту же команду, она заканчивает тем, что загружает дополнительные домены, такие как:
www.website.de
www.website.it
...
Как я могу избежать этой проблемы? Я пытался с помощью
--exclude domains=www.website.de,www.website.it
однако он продолжал загружать эти домены.
Также обратите внимание, что я не могу использовать, --no-parent
поскольку нужные мне файлы находятся на верхнем уровне (я хочу файлы на сайте website.com/ABC, просматривая ссылки на сайте website.com/XYZ).
Есть намеки?
источник
wget
не должен пересекать хосты по умолчанию, и вам нужна опция-H
/--span-hosts
для пересечения хостов при выполнении рекурсивного wget. «www.website.com» - это хост, совершенно отличающийся от «www.website.de».-H
всегда требовалось выполнять рекурсию вне исходного хоста. Помогает-D www.website.com
?Ответы:
Это не правильно:
Правильный путь:
Со страницы руководства wget:
источник
Вы можете попробовать
--max-redirect 0
или использовать--domains example.com
как противоположность--exclude-domains example.com
.Видеть:
источник