Какие боты действительно стоит пускать на сайт?

11

Написав несколько ботов и увидев огромное количество случайных ботов, которые сканируют сайт, я задаюсь вопросом, как веб-мастер, каких ботов действительно стоит пускать на сайт?

Сначала я подумал, что размещение ботов на сайте потенциально может принести на него реальный трафик. Есть ли какая-либо причина, по которой боты, о которых неизвестно, посылают реальный трафик на сайт, и как вы обнаруживаете этих «хороших» ботов?

просчеты
источник
1
+1: хороший вопрос; однако трудно ответить на ваш вопрос, потому что есть очень много ботов.
Zistoloen
@Zistoloen: Да, я знаю, что это сложный вопрос; на самом деле я спросил, потому что неосновная поисковая система, о которой я знаю, проиндексировала миллиарды страниц, жаловалась на то, что они не смогли получить доступ к большим объемам сети, потому что сайты пытались заблокировать неосновные поисковые системы.
промахи
1
Связанный: en.wikipedia.org/wiki/Spider_trap
Mooing Duck
@blunders Спасибо, что нашли время. Я бы отредактировал его сам, если бы смог разобрать вопрос :)
DisgruntledGoat
@DisgruntledGoat: Нет проблем, спасибо за изменения!
промахи

Ответы:

11

В сфере нормальных ботов все зависит от того, что вы цените, и только вы можете решить это. Конечно, есть Google, Bing / MSN / Yahoo !, Baidu и Яндекс. Это основные поисковые системы. Есть также различные сайты SEO и обратных ссылок. Правильно или нет, я разрешаю нескольким из них иметь доступ к моему сайту, но в целом это бесполезные сайты. Я блокирую archive.org не только в robots.txt, но и по доменному имени и IP-адресу. Это потому, что они игнорируют robots.txt большое время! Это то, что вам нужно, чтобы почувствовать. Не обманывайтесь именами агентов. Часто они подделаны плохими людьми. Сейчас я получаю тысячи запросов от источников, утверждающих, что это Baidu, но это не так. Познакомьтесь с этими пауками по доменным именам и блокам IP-адресов и научитесь обращаться с ними на этом уровне. Хорошие подчиняются robots.txt.

Но я должен предупредить вас, что существует множество скрытых ботов, мошеннических ботов, скребков и т. Д., Которые вы захотите часто просматривать в журнале и блокировать. Это 5uck5! Но это должно быть сделано. Самая большая угроза от них в наши дни - низкокачественные ссылки на ваш сайт. Мой обновленный код защиты от ботов, который я внедрил в этом году, автоматически удалил 7700 ссылок низкого качества. Конечно, мой код все еще нуждается в работе, но вы понимаете суть. Плохие боты все еще крадут потенциал сайта.

Это не займет много времени, прежде чем вы освоитесь.

closetnoc
источник
1

У меня были проблемы с ботами Baidu, замедляющими мой сервер, в то время как поисковая система почти не отправляла трафик. Эти боты не относятся к файлу robots.txt, поэтому для блокировки ботов Baidu просто вставьте в файл htccess следующее.

# User-agent: Baiduspider
# Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
# Baiduspider+(+http://www.baidu.com/search/spider.htm)

# IP range
# 180.76

RewriteCond %{REMOTE_ADDR} ^180\.76\. [OR]
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* - [F,L]

У меня также были проблемы с пауками Bing / Microsoft, ползающими слишком быстро, в отличие от Baidu, они действительно уважают файл robots.txt;

User-agent: bingbot
Crawl-delay: 1

User-agent: msnbot
Crawl-delay: 1
Chaoley
источник