Большинство моих посещений происходят от пауков байду. Я не думаю, что это помогает поисковым системам вообще, поэтому я думаю о том, как их заблокировать. Может ли это быть сделано через iptables? Я использую nginx в качестве своего веб-сервера.
traffic
nginx
web-crawlers
baidu
Zhianc
источник
источник
robots.txt
правилам.Ответы:
В ваш robots.txt добавьте
источник
User-agent: *
и доступ к baiduspider продолжают делать.Я только что успешно заблокировал китайский поисковый робот
Baiduspider
от доступа к любому контенту на моем сайте. Я принял решение сделать это по следующим причинам.Причины решения заблокировать
Поэтому я надеюсь, что Су и другие, обеспокоенные ксенофобией, поймут, что это решение - хладнокровный ответ на непрошенное количество запросов.
метод
Baiduspider получает доступ к моему серверу, используя много разных IP-адресов, но эти адреса попадают в определенные диапазоны. Итак, мой файл .htaccess теперь содержит следующие строки:
Суть в основном описывает 4 диапазона IP-адресов, в которых я знаю Baiduspider и ТОЛЬКО Baiduspider получает доступ к моему серверу. Каждый из 4 диапазонов состоит из 256 последовательных адресов (всего 1024). Обратите внимание, что синтаксис для диапазонов IP-адресов в
deny from...
строке может быть очень запутанным, если вы не читали о диапазонах CIDR. Просто поймите, что0/24
означает диапазон размера 256, начинающийся с 0, поэтому180.76.5.0/24
фактически означает каждый IP-адрес между180.76.5.0
и180.76.5.255
. Да, не особенно очевидно! Но если вы хотите узнать, почему, или вам просто нравится чувствовать смущение, перейдите на http://www.mediawiki.org/wiki/Help:Range_blocks.Резюме
Интернет должен быть бесплатным, открытым и честным. Но это означает, что такие организации, как Baidu, учатся подчиняться Robots.txt и менее жадны к регулярности его обхода. Мое решение состоит в том, чтобы переделать очень мощные настройки, поэтому перед тем, как возиться с файлом .htaccess, обязательно сделайте резервную копию своего оригинала, готового к откату, если вы взорвете свой сервер во вспышке славы. Действуйте на свой страх и риск.
источник
Вы можете использовать следующую директиву,
robots.txt
чтобы запретить сканирование вашего сайта.Однако сканеры могут решить игнорировать содержимое вашего файла robots.txt. Кроме того, файл может быть кэширован поисковыми системами, и требуется время, чтобы отразить изменения.
Наиболее эффективным подходом является использование возможностей вашего сервера. Добавьте следующее правило в свой
nginx.conf
файл, чтобы заблокировать Baidu на уровне сервера.Не забудьте перезапустить или перезагрузить Nginx, чтобы применить изменения.
источник
Просто решил заблокировать Baidu, так как количество трафика, которое он нам давал, было слишком незначительным для их агрессивного сканирования. Кроме того, теперь они запускают агент, который олицетворяет браузер и запускает код JavaScript (например, Google Analytics) и портит нашу статистику.
Хорошая версия обновляет ваш robots.txt следующим
Но, учитывая то, что другие написали здесь, и что они используют пользовательский агент, который скрывает их присутствие, я бы полностью заблокировал их IP-адреса. Вот как это делается в nginx
источник
Wordpress решение (не самое лучшее, но помогает)
Та же проблема с пауком Biadu, настолько агрессивная, что моя коробка заняла 35 место в моей консоли, используя top. Очевидно, что даже быстрый компьютер не может эффективно обрабатывать внешние запросы с 35 ...
Я проследил, что количество IP-адресов (из этого здания Университета ????) составило несколько сотен, в основном с двумя пользователями.
Прямое следствие? Поскольку у меня есть облачный сервер, мне пришлось обновить его до более высокого уровня памяти, чтобы разрешить ответ с отклонением.
Предыдущий ответ:
Baidu, похоже, совершенно не в состоянии соблюдать указания robot.txt.
Что я сделал:
Я установил плагин WP-Ban для Wordpress (бесплатно) и запретил следующее:
ПОЛЬЗОВАТЕЛЬСКИЕ АГЕНТЫ:
Baiduspider+(+http://www.baidu.com/search/spider.htm)
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
Кроме того, используя Wp Super Cache, я перенаправляю страницу относительной ошибки на статическую страницу, таким образом, вся установка WordPress не / или, по крайней мере, только для запрещенных пользовательских агентов, проверяют наличие данных в Mysql.
(Это стандартная версия Wordpress, так что любой, кто может установить плагин Wordpress, может это сделать, поскольку для этой процедуры не требуется кодирование или доступ по ftp)
Я согласен со всеми: Интернет бесплатный, запрещение кому-либо или что-то, что является абсолютно последним, что кто-либо должен делать, но сегодня Baidoo стоит мне на 40 долларов США в месяц больше, просто чтобы пауковать веб-сайт, написанный на португальском, и у меня есть некоторые сомнения, если есть Многие китайцы и посетители могут читать и понимать этот язык.
источник
Вы можете заблокировать по IP-адресу с помощью
ngx_http_access_module
nginx. Чтобы заблокировать один IP-адрес, вы можете добавить строку в файл conf, какЧтобы заблокировать диапазон, используйте нотацию CIDR , как
12.34.567.1/24
для 24-битного блока подсети (из 256 IP-адресов), который включает IP-адрес 12.34.567.1. Для более подробной информации смотрите, например, эту страницу .источник
Используйте .htaccess с
«RewriteEngine On» позволяет вам правильно проанализировать следующие строки. HTTP_USER_AGENT - это строка, в которой пауки идентифицируют себя. Условие истинно, если строка содержит «MJ12bot» или «Baidu». NC означает «без учета регистра», и вы можете связать условия с помощью OR. Последняя строка не должна содержать «ИЛИ», иначе правило не работает.
Baidu особенно неприятен, потому что он пытается читать записи Wordpress ("fckeditor", "wp-content"), для которых нет абсолютно никаких причин. MJ12bot также является одним из плохих тварей.
Правило перезаписи означает блокировку паука с помощью 403 Запрещено ([F]) для доступа ко всем файлам (. * Является регулярным выражением для любого файла) и остановки дальнейшей оценки ([L]) htaccess.
источник
F
Флаг означаетL
, так что вам не нужно явно включитьL
флаг здесь. Кроме того, шаблон как^.*Baidu
то же самое, что и простоBaidu
.