Как мне запретить весь каталог с robots.txt?

19

У меня есть два сайта, над которыми я сейчас работаю: корзина для покупок и еще один покупатель. Оба находятся под одним и тем же доменным именем, например,

http://example.com/first_url 
http://example.com/second_url 

Оба эти URL имеют тонны страниц под ними

http://example.com/first_url/product1
http://example.com/first_url/product2 
http://example.com/first_url/product3

http://example.com/second_url/product1
http://example.com/second_url/product2 
http://example.com/second_url/product3

Как запретить основной URL-адрес, /first_urlа /second_urlтакже все вложенные страницы и подкаталоги? Я думал что-то вроде этого, но я не знаю, работает ли это или нет, и был ли это правильный синтаксис

Disallow: /first_url/*/
Disallow: /second_url/*/
Стивен Остермиллер
источник
1
Я думаю, что ваш синтаксис правильный, но не уверен насчет дополнительного /

Ответы:

26

Вам не нужно использовать косую черту, чтобы заблокировать эти каталоги. Это будет работать:

Disallow: /first_url/*
Disallow: /second_url/*

На этой странице справки Google это достаточно хорошо освещено.

Джон Конде
источник
7
Вы можете просто сделать "Disallow: / first_url". Конечный подстановочный знак игнорируется. По словам developers.google.com/webmasters/control-crawl-index/docs/…
Евгений
Вам нужно Disallow: / url / *, чтобы соответствовать таким вещам, как example.com/url/test?test=1
Гарет Дейн
-1

Вы можете использовать это по умолчанию robots.txt:

User-agent: *
Disallow: first_url/*
Disallow: second_url/*

Звезда позволит запретить все, что в этой категории. Вы даже можете запретить одну конкретную вещь в этой категории, набрав этот конкретный URL.

SAF
источник
4
Это не отличается от принятого ответа, за исключением того, что вы пропустили начальный слеш. Правила запрещения в robots.txt должны начинаться с косой черты. Вот как все примеры в документации
Стивен Остермиллер