Инструменты Google для веб-мастеров говорят мне, что роботы блокируют доступ к карте сайта

11

Это мой robots.txt :

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

Sitemap: http://www.example.org/sitemap.xml.gz

Но Инструменты Google для веб-мастеров говорят мне, что роботы блокируют доступ к карте сайта:

Мы столкнулись с ошибкой при попытке доступа к вашему файлу Sitemap. Убедитесь, что ваш файл Sitemap соответствует нашим правилам и доступен в указанном вами месте, а затем повторите отправку: URL-адрес ограничен файлом robots.txt .

Я прочитал, что Инструменты Google для веб-мастеров кэшируют robots.txt , но файл был обновлен более 36 часов назад.

Обновить:

Нажатие на ТЕСТ карту сайта не приводит к тому, что Google получает новую карту сайта. Только SUBMIT Sitemap смог это сделать. (Кстати, я не вижу смысла в «тестовой карте сайта», пока вы не вставите туда свою текущую карту сайта - она ​​не получает свежую копию карты сайта с адреса, который просит ввести перед тестом - но это вопрос на другой день.)

После отправки (вместо тестирования) новой карты сайта ситуация изменилась. Теперь я получаю «URL, заблокированный robots.txt . Карта сайта содержит URL, заблокированные robots.txt ». для 44 URL. В карте сайта ровно 44 URL. Это означает, что Google использует новую карту сайта, но она по-прежнему действует по старому правилу роботов (в котором все было запрещено). Ни один из 44 URL-адресов не находится в /wp-admin/или /wp-includes/(что в любом случае невозможно, так как robots.txt построен на муха тем же плагином, который создает карту сайта).

Обновление 2:

Ситуация ухудшается: на странице результатов поиска Google описание домашней страницы гласит: «Описание этого результата недоступно из-за файла robots.txt этого сайта - узнайте больше». Все остальные страницы имеют прекрасные описания. Там нет robots.txt или роботов меты блокировки индексации домашней страницы.

Я застрял.

Gaia
источник
В Инструментах Google для веб-мастеров> Здоровье> Заблокированные URL-адреса вы можете сразу проверить, будет ли ваш robots.txt блокировать URL-адрес вашей карты сайта (или любой другой URL-адрес, который вы хотите проверить). Не похоже, что ваш текущий файл robots.txt должен блокировать вашу карту сайта, но вы говорите, что он был обновлен. Сделал предыдущий блок этой версии файла robots.txt?
MrWhite
1
Да, предыдущая версия блокировала. Я думаю, что Google только что не обновил свой кеш ...
Gaia
У меня точно такая же проблема. Мой кеш robots.txt с 23 апреля этого года, сегодня 25 апреля, а кеш еще старый. У меня нет времени на ожидание, мне нужно googleboot, чтобы проиндексировать мой сайт (это бизнес-сайт), но, похоже, я ничего не могу сделать, просто ждать, не зная, как долго. Это так расстраивает!

Ответы:

8

Похоже, что Google, вероятно, еще не обновил кеш вашего файла robots.txt. Ваш текущий файл robots.txt (выше) не выглядит так, как будто он должен блокировать URL-адрес вашей карты сайта.

Я думаю, Google просто не обновил свой кэш.

Там нет необходимости угадывать. В Инструментах Google для веб-мастеров (GWT) в разделе «Здоровье»> «Заблокированные URL-адреса» вы можете увидеть, когда файл robots.txt последний раз загружался, и был ли он успешным. Он также сообщит вам, сколько URL заблокировано файлом robots.txt.

ссылка на robots.txt в Инструментах Google для веб-мастеров

Как упоминалось в моих комментариях, в GWT есть инструмент проверки robots.txt («Здоровье»> «Заблокированные URL-адреса»). Таким образом, вы можете немедленно протестировать изменения в вашем файле robots.txt (без изменения фактического файла). Укажите файл robots.txt в верхней текстовой области и URL-адреса, которые вы хотите проверить в нижней текстовой области, и он сообщит вам, будут ли они заблокированы или нет.


Кэширование robots.txt

Запрос robots.txt обычно кэшируется на срок до одного дня, но может кэшироваться дольше в ситуациях, когда обновление кэшированной версии невозможно (например, из-за тайм-аутов или ошибок 5xx). Кэшированный ответ может использоваться разными сканерами. Google может увеличить или уменьшить время жизни кэша, основываясь на максимальных HTTP-заголовках Cache-Control.

Источник: Google Developers - Robots.txt Характеристики

MrWhite
источник
Может ли это быть 24 часа спустя?
Гайя
Какова дата "Загружен", как сообщается в Инструментах для веб-мастеров? Это скажет вам, если это все еще так . Как показано на снимке экрана выше (с одного из моих сайтов), файл robots.txt был последний раз загружен 3 сентября 2012 г. (3 дня назад). Но в моем случае нет необходимости загружать файл снова, поскольку ничего не изменилось (заголовок Last-Modified должен быть таким же). Как часто Google извлекает ваш файл robots.txt, будет зависеть от заголовков Expires и Last-Modified, установленных вашим сервером.
MrWhite
Скачано 22 часа назад, истекает заголовок +24 часа. Я попробую еще раз через пару часов это надо решить!
Гея
Это не сделало это. Google использует новую карту сайта, но по-прежнему использует старое правило robots.txt (в котором все было запрещено)
Gaia
«Это не было сделано» - Google еще не обновил кеш вашего файла robots.txt? Хотя вы говорите, что изменили файл более 36 часов назад, и он был загружен 22 часа назад ?! Что вы видите, когда нажимаете на ссылку на файл robots.txt?
MrWhite
2

У меня была такая же проблема с моим сайтом, потому что во время установки WP я выбираю не отслеживать с поисковой системой или такой же вариант.

Чтобы решить эту проблему:

  1. перейдите в раздел Инструменты для веб-мастеров, удалите URL-адрес и отправьте свой www.example.com/robots.txtс помощью этой опции -> удалить из кэша для изменения содержимого или ...
  2. Подожди минуту
  3. повторно отправьте URL своего сайта
  4. финиш
Мохаммад
источник