Robots.txt против Sitemap - кто победит в конфликте

8

Если я заблокирую каталог / foo в robots.txt, но мой xml-файл содержит URL-адреса с / foo, будут ли URL-адреса в карте сайта обнаруживаться Google и другими поисковыми системами? Другими словами, превосходит ли карта сайта robots.txt? Я так думаю, но не уверен.

Натан
источник

Ответы:

12

Нет исключения для роботов протокол совместимых поисковая система может сканировать любой URL запрещенного в robots.txt, независимо от того , где еще может быть в списке.

Однако Google не обязательно должен сканировать ваши URL-адреса, чтобы проиндексировать их. Если они считают, что у них есть достаточные доказательства того, что на этом URL действительно есть страница (и очень вероятно, что такая карта считается списком сайта), они могут просто решить добавить URL в свой индекс без какого-либо содержимого. Цитировать справочные страницы Инструментов Google для веб-мастеров :

«Хотя Google не будет сканировать или индексировать содержимое страниц, заблокированных robots.txt, мы все равно можем индексировать URL-адреса, если найдем их на других страницах в Интернете. В результате URL-адрес страницы и, возможно, другие общедоступная информация, такая как якорный текст в ссылках на сайт или заголовок проекта Open Directory (www.dmoz.org), может появляться в результатах поиска Google ".

Такие страницы могут появляться как результаты поиска, например, для слов, включенных в сам URL, или для слов, используемых в ссылках, указывающих на страницу.

Таким образом, если вы оба перечислите страницу в карте сайта и запретите ее в файле robots.txt, вполне вероятно, что Google будет индексировать URL-адрес этой страницы, но не ее содержимое.

Илмари Каронен
источник
Так что это сделало бы ваш ответ Да, а не Нет, не так ли? :) Потому что он получает URL-адреса, несмотря на то, что каталог заблокирован в robots.txt, и вы, похоже, с этим согласны.
Хенрик Эрландссон
3

Robots.txt определяет, какие боты разрешены или нет. Даже если конкретная ссылка присутствует в карте сайта, бот не имеет права запрашивать ее, если robots.txt запрещает ее.

Помните, что файлы Sitemap не нужны, и даже если они указаны, сканеры могут игнорировать URL-адреса и сканировать те, которых там нет. Если это можно увидеть в Инструментах Google для веб-мастеров, это показывает, что не все URL-адреса в карте сайта сканируются, и если некоторые URL-адреса являются роботизированными .

Итай
источник
3

Ответ Итая правильный, поэтому ничего особенного добавить к этому нельзя, кроме ответа на ваш конкретный вопрос ...

Карта сайта не может превзойти robots.txt, карта сайта не содержит инструкций / директив для сканеров на сайте. Они даже не сопоставимы. Если вы указали роботам не посещать / следовать, /fooто любые боты, которые подчиняются директивам роботов, просто не будут посещать этот каталог, независимо от того, по какому пути они туда попали (карта сайта или иным образом).

zigojacko
источник
Хм ... Это то, что Google говорит в своей документации о том, как они справляются со сканированием. [absoluteURL] указывает на файл Sitemap, файл индекса Sitemap или эквивалентный URL. URL-адрес не обязательно должен быть на том же хосте, что и файл robots.txt. Может существовать несколько записей карты сайта. Как записи, не входящие в группу, они не привязаны к каким-либо конкретным пользовательским агентам и могут отслеживаться всеми искателями, если это не запрещено .
zigojacko
3
Когда Google может правильно обработать файл robots.txt, URL-адрес, указанный в файле Sitemap, никогда не превзойдет действительную директиву disallow в файле robots.txt. Googlebot не должен сканировать URL, запрещенный для сканирования.
Джон Мюллер
0

В веб-мастере Google: в вашем файле XML-файла отображается ошибка: «Вы добавили ссылку, которая запрещена для сканирования, в ваш файл robots.txt. Google предпочитает файл robots.txt, а не файл Sitemap.

Асиф Фариди
источник