Я наткнулся на этот сайт, который говорит об этом.
Так что, при загрузке всего сайта с помощью gzip-версии, какая команда подходит?
Я протестировал эту команду, но я не знаю, действительно ли wget получит версию gzipped:
wget --header="accept-encoding: gzip" -m -Dlinux.about.com -r -q -R gif,png,jpg,jpeg,GIF,PNG,JPG,JPEG,js,rss,xml,feed,.tar.gz,.zip,rar,.rar,.php,.txt -t 1 http://linux.about.com/
Ответы:
Если вы запрашиваете содержимое gzip (используя заголовок accept-encoding: gzip, что правильно), то, насколько я понимаю, wget не сможет затем прочитать содержимое. Таким образом, вы получите один сжатый файл на диске для первой попавшейся страницы, но без другого контента.
То есть вы не можете использовать wget для запроса содержимого в формате gzip и одновременного просмотра всего сайта.
Я думаю, что есть патч, который позволяет wget поддерживать эту функцию, но его нет в версии по умолчанию.
Если вы включите флаг -S, вы сможете определить, отвечает ли веб-сервер правильным типом контента. Например,
Кодировка содержимого четко гласит gzip, однако для linux.about.com (в настоящее время),
Это возвращает текст / HTML.
Поскольку некоторые старые браузеры по-прежнему имеют проблемы с содержимым в кодировке gzip, многие сайты включают его только на основании идентификации браузера. Они часто выключают его по умолчанию и включают его только тогда, когда знают, что браузер может его поддерживать - и обычно они не включают wget в этот список. Это означает, что вы можете обнаружить, что wget никогда не возвращает содержимое gzip, даже если сайт, похоже, делает это для вашего браузера.
источник
Content-Type: text/html; charset=UTF-8
, но естьContent-Encoding: gzip
. Это не было бы прозрачным сжатием, если бы его использование заставляло тип MIME всего gzip ... Я побежал,strace -s 128 wget ...
чтобы фактически увидеть некоторые байты, прочитанные из сокета / записанные на диск. Они не ASCII. Поэтому, хотя я думаю, что в 2011 году ваша команда не получила версию в формате gzip, в 2015 году эта же команда получила. (wget 1.15).Простая команда, чтобы получить HTML-страницу и сжать ее или получить любой файл и сжатый.
Для получения дополнительной информации о опции. используйте команду man.
источник