Можем ли мы использовать регулярные выражения в файле robots.txt для блокировки URL-адресов?

23

У меня есть несколько динамически генерируемых URL.

Могу ли я использовать регулярные выражения для блокировки этих URL-адресов в файле robots.txt?

Sudheera Njs
источник
Также стоит установить метатеги роботов на страницах, которые вы не хотите сканировать / индексировать.
Эндрю Лотт
@AndrewLott В моем случае у меня есть более 500 страниц, поэтому я подумал использовать регулярное выражение в robots.txt ..
Sudheera Njs
Тогда правило в коде вашего сайта, вероятно, будет более полезным.
Эндрю Лотт

Ответы:

27

Регулярные выражения недопустимы в robots.txt, но Google, Bing и некоторые другие боты распознают совпадения с шаблоном.

Скажем, если вы хотите заблокировать все URL-адреса, которые имеют exampleлюбое место в URL-адресе, вы можете использовать подстановочный знак *

User-agent: *
Disallow: /*example

Вы также можете использовать знак доллара $, чтобы указать, что URL-адреса должны заканчиваться таким образом. Поэтому, если вы хотите заблокировать все URL-адреса, которые заканчиваются example, но не URL-адреса, которые были в exampleдругом месте в URL-адресе, вы можете использовать:

User-agent: *
Disallow: /*example$

Более углубленная информацию для Google можно найти здесь: robots.txt приведено спецификацию , Bing здесь: Как создать файл Robots.txt и есть интерактивный путеводитель по Moz здесь

Максимум
источник
Отлично, * отлично работает, протестировано в веб-мастере .. Спасибо, Макс ... :)
Sudheera Njs
Я бы предостерег от использования слишком необычных директив в вашем файле robots.txt; это действительно очень трудно отладить позже. Постарайтесь сделать вещи максимально простыми. Также помните, что robots.txt чувствителен к регистру, поэтому вам может потребоваться добавить альтернативные версии директив в зависимости от вашего сайта.
Джон Мюллер
было бы хорошо, если бы регулярное выражение было поддержано
SuperUberDuper