Я пытаюсь скачать два сайта для включения в CD:
http://boinc.berkeley.edu/trac/wiki
http://www.boinc-wiki.info
У меня проблема в том, что это оба вики. Таким образом, при загрузке, например:
wget -r -k -np -nv -R jpg,jpeg,gif,png,tif http://www.boinc-wiki.info/
Я получаю много файлов, потому что он также следует по ссылкам вроде ...? Action = edit ...? Action = diff & version = ...
Кто-нибудь знает способ обойти это?
Я просто хочу текущие страницы, без изображений, без различий и т. Д.
PS:
wget -r -k -np -nv -l 1 -R jpg,jpeg,png,gif,tif,pdf,ppt http://boinc.berkeley.edu/trac/wiki/TitleIndex
Это сработало для Беркли, но boinc-wiki.info все еще доставляет мне неприятности: /
PPS:
Я получил то, что кажется наиболее релевантными страницами с:
wget -r -k -nv -l 2 -R jpg,jpeg,png,gif,tif,pdf,ppt http://www.boinc-wiki.info
Ответы:
Новая версия wget (v.1.14) решает все эти проблемы.
Вы должны использовать новую опцию
--reject-regex=....
для обработки строк запроса.Обратите внимание, что я не смог найти новое руководство, которое включает в себя эти новые опции, поэтому вы должны использовать команду справки
wget --help > help.txt
источник
(
--reject-type posix
по умолчанию). Работает только для последних (> = 1.14) версий,wget
хотя, согласно другим комментариям.Помните, что вы можете использовать
--reject-regex
только один раз заwget
звонок. То есть вы должны использовать|
в одном регулярном выражении, если вы хотите выбрать несколько регулярных выражений:источник
|
символа ("pipe") не работает для меня с GNU Wget 1.16.Это исключит все, что содержится
?action=
в его названии.источник
Я бы сказал, что использование публичного вики-сайта - плохая практика, потому что это создает дополнительную нагрузку на него.
Если вики общедоступна, и владельцы сайта не против делиться контентом, они обычно предоставляют загружаемый бэкэнд (база данных или что-то еще). Таким образом, вы просто скачаете пакет данных, настроите локальный экземпляр того же вики-движка, импортируете в него данные и получите локальную копию. После этого, если вы хотите, вы можете делать пиявок на месте.
источник