Какие боты и пауки я должен блокировать в robots.txt?

14

Для того, чтобы:

  1. Повысить безопасность моего сайта
  2. Уменьшить требования к пропускной способности
  3. Запретить сбор адресов электронной почты
DaveC
источник

Ответы:

17

Ни один бот, который собирает электронные письма или проверяет ваш сайт на наличие уязвимостей, не будет уважать ваш robots.txt. На самом деле эти вредоносные боты смотрят robots.txt, чтобы лучше отобразить ваш сайт. Если у вас есть точка, Disallow:это будет использовано для лучшей атаки на ваш сайт. Хакер, который просматривает ваш сайт вручную, должен потратить дополнительное время на изучение любых файлов / каталогов, которые вы пытаетесь запретить.

ладья
источник
3
Интересный момент. Интересно, имеет ли смысл добавлять поддельную страницу в список «Запретить», единственная цель которой - поймать таких ботов в действии, чтобы они могли автоматически блокироваться.
Стивен Судит
5
@ Стивен Судит, это неплохая идея. Это будет называться горшок меда.
Ладья
Да, это совершенно верно, хотя я больше думал о стандартном приеме компиляторов каталогов (телефонных книг и т. Д.) О добавлении небольшого количества фальшивых записей для обнаружения оптовой кражи.
Стивен Судит
Если вы также используете эту приманку в качестве тарпита, это также нарушит незаконные индексаторы. На самом деле это довольно распространенное явление для спаммеров - оставить индексируемый адрес электронной почты honeypot, который ведет к почтовому серверу tarpit.
Марк Хендерсон
@ Farseeker Я не вижу проблемы с наказанием тех, кто нарушает правила. Хотя обман спамеров с плохими данными - интересный поворот.
Ладья
4

robots.txt не повысит безопасность вашего сайта и не предотвратит сбор адресов электронной почты. robots.txt - это руководство для поисковых систем, позволяющее пропустить разделы вашего сайта. Они не будут проиндексированы и должны использоваться для любых разделов, которые вы не хотите показывать в общедоступных поисковых системах.

Однако это никоим образом не помешает другим ботам загружать весь ваш сайт для повышения безопасности или предотвращения сбора электронной почты. Для повышения безопасности необходимо добавить аутентификацию и разрешить только аутентифицированным пользователям за пределами защищенных разделов. Чтобы предотвратить сбор адресов электронной почты, не размещайте электронные письма в виде простого текста (или легко дешифруемого текста) на веб-сайте.

Сэм
источник
1

robots.txt не поможет вам с безопасностью. Любой бот, который хочет сделать что-то теневое, все равно проигнорирует это.

луч
источник
0

Файл robots.txt служит только для запроса, чтобы боты и пауки оставляли определенные фрагменты контента в одиночку; это не может на самом деле предотвратить их доступ. «Хорошие» боты будут уважать его, но «плохие» (вероятно, те, которые вы хотите заблокировать) проигнорируют его и продолжат в любом случае.

derekerdmann
источник
-1

Вместо robots.txt, возможно, вам нужно использовать коды CAPTCHA.

Стивен Судит
источник
Коды CAPTCHA не имеют ничего общего с веб-сканерами (это то, что адрес robots.txt).
user48838
Это был ошибочный ответ. Все дело в том, что сканер может игнорировать robots.txt, но коды CAPTCHA по крайней мере замедляют его, если не блокируют его напрямую. Спасибо, что ошиблись.
Стивен Судит