+1 за -e robots=off! Это наконец исправило мою проблему! :) Спасибо
NHDaly
12
--random-waitВариант гений;)
poitroae
2
@izilotti Может ли владелец сайта узнать, WGET ли файлы их сайта этим методом?
Elias7
1
@whatIsperfect Это определенно возможно.
Джек,
1
@JackNicholsonn Как узнает владелец сайта? Использованным агентом был Mozilla, что означает, что все заголовки будут использоваться как браузер Mozilla, поэтому обнаружение wget как использованного будет невозможно? Пожалуйста, поправьте, если я ошибаюсь. спасибо
Хофи
63
wget -m -p -E -k -K -np http://site/path/
Страница man расскажет вам, что делают эти опции.
wgetбудет только переходить по ссылкам, если на странице индекса нет ссылки на файл, то wgetне будет знать о его существовании и, следовательно, не будет скачивать его. то есть. Это помогает, если все файлы связаны на веб-страницах или в индексах каталогов.
Спасибо за ответ :) Он копирует весь сайт, и мне нужны только файлы (например, TXT, PDF, изображения и т. Д.) На сайте
Aniruddhsinh
25
Я пытался скачать zip-файлы, связанные со страницы тем Omeka - довольно похожая задача. Это сработало для меня:
wget -A zip -r -l 1 -nd http://omeka.org/add-ons/themes/
-A: принимать только zip-файлы
-r: recurse
-l 1: один уровень глубоко (т.е. только файлы, напрямую связанные с этой страницей)
-nd: не создавайте структуру каталогов, просто загрузите все файлы в этот каталог.
Все ответы с -k, -K, и -Eт.д. варианты , вероятно, не очень понял вопрос, как и те , как и для перезаписи HTML - страниц , чтобы сделать локальную структуру, переименовав.php файлов и так далее. Не имеет значения.
Чтобы буквально получить все файлы, кроме.html etc:
wget --spider
сначала и всегда добавляйте-w 1
(или больше-w 5
), чтобы не затопить сервер другого человека.Ответы:
Чтобы отфильтровать по определенным расширениям файлов:
Или, если вы предпочитаете длинные имена вариантов:
Это будет зеркало сайта, но файлы без
jpg
или сpdf
расширением будут автоматически удалены.источник
--accept
с учетом регистра, так что вам придется сделать--accept pdf,jpg,PDF,JPG
wget
но вы должны указать--progress
тип, например--progress=dot
--ignore-case
флаг, чтобы сделать--accept
регистр нечувствительным.Это загрузило весь сайт для меня:
источник
-e robots=off
! Это наконец исправило мою проблему! :) Спасибо--random-wait
Вариант гений;)Страница man расскажет вам, что делают эти опции.
wget
будет только переходить по ссылкам, если на странице индекса нет ссылки на файл, тоwget
не будет знать о его существовании и, следовательно, не будет скачивать его. то есть. Это помогает, если все файлы связаны на веб-страницах или в индексах каталогов.источник
Я пытался скачать zip-файлы, связанные со страницы тем Omeka - довольно похожая задача. Это сработало для меня:
-A
: принимать только zip-файлы-r
: recurse-l 1
: один уровень глубоко (т.е. только файлы, напрямую связанные с этой страницей)-nd
: не создавайте структуру каталогов, просто загрузите все файлы в этот каталог.Все ответы с
-k
,-K
, и-E
т.д. варианты , вероятно, не очень понял вопрос, как и те , как и для перезаписи HTML - страниц , чтобы сделать локальную структуру, переименовав.php
файлов и так далее. Не имеет значения.Чтобы буквально получить все файлы, кроме
.html
etc:источник
-A
чувствителен к регистру, я думаю, так что вам придется сделать-A zip,ZIP
Вы можете попробовать:
Также вы можете добавить:
принять определенные расширения или отклонить только определенные расширения:
или исключить конкретные области:
Если файлы игнорируются для роботов (например, поисковых систем), вы также должны добавить:
-e robots=off
источник
Попробуй это. У меня всегда работает
источник
это будет загружать все типы файлов локально и указывать на них из файла HTML, и это будет игнорировать файл роботов
источник
В системах Windows для получения wget вы можете
источник