По сути, я хочу сканировать весь сайт с помощью Wget, но он мне нужен, чтобы НИКОГДА не загружать другие ресурсы (например, изображения, CSS, JS и т. Д.). Я хочу только файлы HTML.
Поиски в Google совершенно бесполезны.
Вот команда, которую я попробовал:
wget --limit-rate=200k --no-clobber --convert-links --random-wait -r -E -e robots=off -U "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/32.0.1700.102 Safari/537.36" -A html --domain=www.example.com http://www.example.com
Наш сайт представляет собой гибридный плоский PHP и CMS. Таким образом, HTML "файлы" может быть /path/to/page
, /path/to/page/
, /path/to/page.php
или /path/to/page.html
.
Я даже включил, -R js,css
но он по-прежнему загружает файлы, затем отклоняет их (бессмысленная трата пропускной способности, загрузки процессора и сервера!).
wget
web-crawler
Натан Дж. Б.
источник
источник
Length: 558 [text/css]
файлы, которые мне не нужны. Если бы я мог остановить запрос, если заголовок не вернулсяtext/html
, я был бы в восторге.Ответы:
Комментарий Эрни о том, чтобы
--ignore-tags
привести меня на правильный путь! Когда я посмотрел--ignore-tags
наman
, я заметил--follow-tags
.Установка
--follow-tags=a
позволила мне пропуститьimg
,link
,script
и т.д.Возможно, он слишком ограничен для некоторых людей, ищущих один и тот же ответ, но на самом деле он хорошо работает в моем случае (это нормально, если я пропущу пару страниц).
Если кто-то найдет способ разрешить сканирование ВСЕХ тегов, но запретит
wget
отклонять файлы только после их загрузки (они должны отклоняться на основе имени файла или заголовка Content-type перед загрузкой), я с радостью приму их ответ!источник
как насчет добавления опций:
источник