Отличный вопрос, и может заинтересовать многих веб-мастеров, поскольку паук Baidu общеизвестно агрессивен и может захватывать ресурсы с серверов ...
Как указывается в новостях Baidu о веб-поиске, паук Baidu не поддерживает настройку уведомления о задержке сканирования и вместо этого требует, чтобы вы зарегистрировались и подтвердили свой сайт с помощью платформы инструментов для веб-мастеров Baidu, как указано здесь на его сайте. Похоже, что это единственная возможность напрямую контролировать частоту сканирования с помощью Baidu.
Проблема заключается в том, что другие спам-боты используют пользовательские агенты Baidu (перечислены здесь под номером 2), чтобы подсмотреть ваш сайт, как указано в их часто задаваемых вопросах здесь под номером 4. Поэтому запрос более медленной скорости сканирования с Baidu может решить не все.
Поэтому, если вы решите использовать Baidu Webmaster Tools, было бы целесообразно также сравнить его пользовательские агенты с IP-адресами, о которых известно, что они связаны с ними, с помощью ресурса, такого как база данных Bots vs Browsers , или с помощью обратного просмотра DNS.
Единственные другие варианты - либо блокировать все пользовательские агенты Baidu и, таким образом, жертвовать потенциальным трафиком от Baidu, либо пытаться ограничить чрезмерные запросы, используя что-то вроде mod_qos для Apache, который претендует на управление:
- Максимальное количество одновременных запросов к расположению / ресурсу (URL) или виртуальному хосту.
- Ограничение пропускной способности, например максимально допустимое количество запросов в секунду к URL-адресу или максимальное / минимальное количество загружаемых килобайт в секунду.
- Ограничивает количество событий запроса в секунду (особые условия запроса).
- Он также может «обнаруживать» очень важных лиц (VIP), которые могут получить доступ к веб-серверу без ограничений или с меньшими ограничениями.
- Общая строка запроса и фильтр заголовка для запрета несанкционированных операций. Запрашивать ограничение и фильтрацию данных тела (требуется mod_parp).
- Ограничения на уровне соединения TCP, например, максимальное количество разрешенных соединений от одного IP-адреса источника или динамическое управление поддержанием активности.
- Предпочитает известные IP-адреса, когда на сервере заканчиваются свободные соединения TCP.
Я не обнаружил сообщений об опыте работы с инструментами Baidu для веб-мастеров, которые загружаются медленно и имеют проблемы с переводом (также нет версии на английском языке). Это может быть полезно, но, конечно, основано на мнении.
После долгих исследований и экспериментов с этим я, наконец, прикусила пулю и настроила учетную запись Baidu для веб-мастеров. Его довольно просто использовать, когда он вооружен Google Translate в другом окне. Вам может понадобиться активировать firebug, чтобы иметь возможность копировать и вставлять китайский текст с кнопок, которые вы не можете захватить в обычном режиме браузера.
После настройки вам нужно подождать несколько дней, пока не появятся данные для сканирования, а затем вы можете настроить частоту сканирования. Он появляется в разделе «Давление», к которому вы можете обратиться по этому URL:
http://zhanzhang.baidu.com/pressure/adjust?site=http%3A%2F%2Fwww.yourURL.com%2F
Обратите внимание, что вы сможете использовать этот URL-адрес только в том случае, если у вас настроена учетная запись Baidu для веб-мастеров и вы связали URL-адрес своего веб-сайта с учетной записью соответствующего веб-сайта). Здесь вы увидите слайдер с текущей скоростью сканирования в центре (в моем случае 12676 запросов в день. Сдвиньте его влево, чтобы уменьшить скорость сканирования.
Я понятия не имею, уважает ли он ваш запрос. Это дает вам предупреждение, которое говорит что-то вроде этого. «Мы рекомендуем использовать скорость сканирования Baidu по умолчанию для сайта. Только если у вашего веб-сайта есть проблемы с нашим сканированием, используйте этот инструмент для его настройки. Для поддержания нормального сканирования вашего сайта Baidu примет вашу корректировку скорости сканирования к фактической Условия сайта и, следовательно, не может гарантировать, чтобы настроить в соответствии с вашим запросом. "
источник
Да, вы можете использовать
Crawl-delay
параметр в robots.txt, чтобы установить количество секунд ожидания между последовательными запросами к одному и тому же серверу.Первая строка - указать только сканеру Baidu, чтобы он выполнял команду. 2-я строка - время ожидания в секундах между запросами к серверу. Вы можете добавить любую задержку, которая вам нужна.
Вам нужно будет добавить эти команды в существующий файл robots.txt . Если у вас еще нет файла robots.txt , добавьте приведенный выше код в текстовый файл, сохраните файл как robots.txt и загрузите его в корневую папку вашего сайта, чтобы он отображался по указанному ниже адресу:
источник