Я использую следующий файл robots.txt для сайта: Цель - разрешить googlebot и bingbot доступ к сайту, кроме страницы, /bedven/bedrijf/*
и запретить всем остальным роботам сканировать сайт.
User-agent: googlebot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: google
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: bingbot
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: bing
Disallow: /bedven/bedrijf/*
Crawl-delay: 10
User-agent: *
Disallow: /
Последнее правило User-agent: * Disallow: /
запрещает всем ботам сканировать все страницы сайта?
web-crawlers
robots.txt
Konsole
источник
источник
robots.txt
любом случаеrobots.txt
, или, по крайней мере,Disallow: /
правилу. Если ваш личный веб-сайт врезается в землю из-за того, что бот-программист никогда не считал, что сервер может быть Raspberry Pi на неправильном конце соединения 256 кбит, такое полное исключение полезно.Ответы:
За последней записью (начатой
User-agent: *
) последуют все вежливые боты, которые не идентифицируют себя как "googlebot", "google", "bingbot" или "bing".И да, это означает, что им не разрешено ничего сканировать.
Вы можете опустить
*
в/bedven/bedrijf/*
.В оригинальной спецификации robots.txt
*
не имеет особого значения, это просто символ, как и любой другой. Таким образом, было бы запрещено только сканировать страницы, которые буквально имеют символ*
в своем URL.Хотя Google в этом отношении не следует спецификации robots.txt, поскольку они используют
*
в качестве подстановочного знака для «любой последовательности символов», в этом случае они не нужны :/bedven/bedrijf/*
и это/bedven/bedrijf/
будет означать одно и то же: заблокировать все URL, путь к которым начинается с/bedven/bedrijf/
.И, наконец, вы можете уменьшить ваш robots.txt до двух записей, потому что запись может иметь несколько
User-agent
строк :источник
Боты, особенно плохие, могут игнорировать файл robots.txt. Поэтому независимо от того, что там написано, некоторые роботы могут сканировать ваш сайт.
источник