Тактика борьбы с плохо себя ведущими роботами

У меня есть сайт, который по нормативным причинам не может быть проиндексирован или произведен автоматический поиск. Это означает, что мы должны держать всех роботов подальше и не дать им спайдеринг сайта.

Очевидно, у нас был файл robots.txt, который запрещает все с самого начала. Однако наблюдение за файлом robots.txt - это то, что делают только роботы с хорошим поведением. Недавно у нас были проблемы с роботами с плохим поведением. Я настроил Apache для запрета нескольких пользовательских агентов, но это довольно легко обойти.

Итак, вопрос в том, есть ли какой-нибудь способ настроить Apache (возможно, установив какой-нибудь модуль?) Для обнаружения поведения, подобного роботу, и ответа? Есть еще идеи?

На данный момент все, что я могу сделать, это запретить IP-адреса на основе ручной проверки журналов, и это просто не является жизнеспособной долгосрочной стратегией.

apache web-crawlers user-agent Kris
источник

Учитывая, что вы спрашиваете о модулях Apache (см. Mod_evasive), и ваше решение может в конечном итоге включать некоторые пользовательские правила синтаксического анализа журналов и iptables, эта тема может быть более подходящим кандидатом для ServerFault.com, если у вас есть вопросы о блокировке определенных действий бота.

danlefree

Ответы:

Вы можете создать ссылку на скрытую страницу, которая при посещении захватывает идентификатор пользователя и IP-адрес бота, а затем добавляет один или оба из них в файл .htaccess, который навсегда блокирует их. Он автоматизирован, поэтому вам не нужно ничего делать для его обслуживания.

Джон Конде
источник

Это очень интересная идея, хотя в случае, если они используют очень универсальный пользовательский агент, вы не захотите автоматически блокировать какой-либо пользовательский агент.

Крис

Я бы тогда придерживался IP-адресов. Кроме того, если вы используете адреса I и видите шаблон из блока IP-адресов, вы можете легко заблокировать их все с помощью одного простого правила вместо того, чтобы поддерживать длинный список отдельных IP-адресов.

Джон Конде

Вы можете использовать описанный метод, чтобы случайно остановить плохих ботов при сканировании вашего сайта. Но 1) можно обойти (плохие боты - и их хозяева - могут научиться распознавать приманки и знать, как их избежать); и 2) Этот метод также может блокировать узаконивание пользователей-людей, которым были перераспределены IP-адреса, которые были занесены в черный список как принадлежащие неправильно действующим ботам. Если у вас есть юридическое или нормативное обязательство не индексировать ваш сайт или автоматически не использовать его, вы должны использовать надлежащую аутентификацию и предоставлять доступ только авторизованным пользователям. Все остальное не безопасно.

Свободное Радикальное

Хорошая идея. Но, если бы я это реализовал, держу пари, я бы продолжал случайно попадать в приманку самостоятельно и продолжал бы блокироваться со своего собственного сайта.

JW01

@ JW01 Все, что вам нужно сделать, чтобы избежать этого, это не посещать страницу, которая занимается этим. Поскольку на нем нет контента, это должно быть просто сделать.

Джон Конде

Вы можете воспользоваться работой, которую проделали другие люди по выявлению плохих IP-адресов, с помощью модуля Apache, который взаимодействует с черным списком IP Project Honeypot . Если вы делаете это в больших масштабах, возможно, было бы вежливо предложить запустить honeypot.

Питер Тейлор
источник

Я был поражен, когда я добавил черный список IP Project Project на мой сайт. Годы мучений закончились так просто, блокируя злодеев. Я думаю, что вы можете обнаружить поисковых роботов с ним тоже. Итак, плюс 1 за это.

JW01

Но суть дела в том, что если у вас есть общедоступные страницы, ожидайте, что они будут проиндексированы. Итак, нужна какая-то аутентификация. Смотрите ответ Майкла Хэмптона .

JW01

Как упомянул Жизель Ханнемир в комментарии , лучший способ сделать это - потребовать, чтобы вход всех пользователей был выполнен, и не предоставлял ограниченный контент тем, кто не вошел в систему.

Если вам по какой-то причине не требуется вход в систему, есть еще несколько вариантов, которые вы можете использовать (отказ от ответственности: оба они частично или полностью являются моей ошибкой):

Набор базовых правил OWASP ModSecurity содержит ряд правил, разработанных для обнаружения автоматизации, даже если бот предпринял шаги, чтобы замаскироваться под браузер (например, подделать строку User-Agent). Если вы полностью контролируете свой сервер, такой как VPS, выделенный сервер или что-то большее, то вы можете использовать эти правила с ModSecurity .

Этот набор правил также содержит другие правила, предназначенные для прекращения широкого спектра неуместных действий; если вы не смотрели на это, вам определенно следует.
Если вы не полностью контролируете свой сервер (то есть используете общий веб-хостинг), и ваш хост не позволяет использовать ваши собственные правила ModSecurity, вы можете попробовать что-то на уровне приложения, например, мой собственный Bad Поведение . Я начал этот проект в 2005 году, чтобы бороться со спамом в блоге и соскребениями контента, например, теми, которые вас касаются. Его можно добавить на любой веб-сайт на основе PHP.

Я также должен отметить, что многие из правил плохого поведения были включены в основной набор правил ModSecurity, поэтому, если вы включите эти правила, выполнение обоих будет довольно избыточным. Эти правила аннотированы в Базовом наборе правил как происходящие из плохого поведения.

Майкл Хэмптон
источник