Как я могу сделать так, чтобы wget скачивал только страницы, а не изображения CSS и т. Д.

10

Я хочу загрузить весь сайт с помощью wget, но не хочу, чтобы wget загружал изображения, видео и т. Д.

Я старался

wget -bqre robots=off -A.html example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″

но когда я это делаю, он не загружает файлы .php, а просто загружает статические файлы .html.

Есть ли решение этой проблемы с помощью wget?

user1126446
источник

Ответы:

6

Вы явно указали wget принимать только те файлы, которые имеют .htmlсуффикс.

Предполагая, что php-страницы имеют .php, вы можете сделать это:

wget -bqre robots=off -A.html,.php example.com –user-agent=”Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6″

Обратите внимание, что при этом будет загружен визуализированный html, а не источник php. Если страница достаточно динамична, вы можете не получить ожидаемого результата.

Тем не менее, я бы предположил, что другой инструмент, такой как httrack, может работать лучше - это зависит от того, что именно вам нужно делать.

Джеймс Полли
источник
3

-A берет список, поэтому -A.html, .php должен отвечать всем требованиям. Вы также должны заглянуть в -R (он также принимает список отклонений).

Инопланетная форма жизни
источник