Написав несколько ботов и увидев огромное количество случайных ботов, которые сканируют сайт, я задаюсь вопросом, как веб-мастер, каких ботов действительно стоит пускать на сайт?
Сначала я подумал, что размещение ботов на сайте потенциально может принести на него реальный трафик. Есть ли какая-либо причина, по которой боты, о которых неизвестно, посылают реальный трафик на сайт, и как вы обнаруживаете этих «хороших» ботов?
seo
web-crawlers
robots.txt
googlebot
bingbot
просчеты
источник
источник
Ответы:
В сфере нормальных ботов все зависит от того, что вы цените, и только вы можете решить это. Конечно, есть Google, Bing / MSN / Yahoo !, Baidu и Яндекс. Это основные поисковые системы. Есть также различные сайты SEO и обратных ссылок. Правильно или нет, я разрешаю нескольким из них иметь доступ к моему сайту, но в целом это бесполезные сайты. Я блокирую archive.org не только в robots.txt, но и по доменному имени и IP-адресу. Это потому, что они игнорируют robots.txt большое время! Это то, что вам нужно, чтобы почувствовать. Не обманывайтесь именами агентов. Часто они подделаны плохими людьми. Сейчас я получаю тысячи запросов от источников, утверждающих, что это Baidu, но это не так. Познакомьтесь с этими пауками по доменным именам и блокам IP-адресов и научитесь обращаться с ними на этом уровне. Хорошие подчиняются robots.txt.
Но я должен предупредить вас, что существует множество скрытых ботов, мошеннических ботов, скребков и т. Д., Которые вы захотите часто просматривать в журнале и блокировать. Это 5uck5! Но это должно быть сделано. Самая большая угроза от них в наши дни - низкокачественные ссылки на ваш сайт. Мой обновленный код защиты от ботов, который я внедрил в этом году, автоматически удалил 7700 ссылок низкого качества. Конечно, мой код все еще нуждается в работе, но вы понимаете суть. Плохие боты все еще крадут потенциал сайта.
Это не займет много времени, прежде чем вы освоитесь.
источник
У меня были проблемы с ботами Baidu, замедляющими мой сервер, в то время как поисковая система почти не отправляла трафик. Эти боты не относятся к файлу robots.txt, поэтому для блокировки ботов Baidu просто вставьте в файл htccess следующее.
У меня также были проблемы с пауками Bing / Microsoft, ползающими слишком быстро, в отличие от Baidu, они действительно уважают файл robots.txt;
источник