Как я могу рекомендовать Google прочитать новый файл robots.txt?

22

Я только что обновил свой файл robots.txt на новом сайте; Инструменты Google для веб-мастеров сообщают, что прочитали мой файл robots.txt за 10 минут до моего последнего обновления.

Можно ли как-нибудь посоветовать Google перечитать мой robots.txt как можно скорее?

ОБНОВЛЕНИЕ: под конфигурацией сайта | Crawler Access | Тест robots.txt:

Доступ к домашней странице показывает:

Робот Googlebot заблокирован с сайта http://my.example.com/

К вашему сведению: файл robots.txt, который Google последний раз читал, выглядит следующим образом:

User-agent: *
Allow: /<a page>
Allow: /<a folder>
Disallow: /

Я выстрелил себе в ногу, или он в конечном итоге будет читать: http: ///robots.txt (как это было в прошлый раз, когда он читал это)?

Любые идеи о том, что мне нужно сделать?

qxotk
источник
К сведению: сайт новый, и это сообщение появляется в меню «Настройки | Скорость сканирования»: «Вашему сайту были назначены специальные настройки скорости сканирования. Вы не сможете изменить скорость сканирования».
qxotk
К вашему сведению: я нашел сообщение в группах Google, в котором говорилось, что google будет читать robots.txt «хотя бы раз в день» - кто-нибудь может это подтвердить? [Публикация групп в Google здесь: groups.google.com/group/google_webmaster_help-indexing/… ]
qxotk
К вашему сведению: прошел 1 день, и Google еще не прочитал мой обновленный файл robots.txt.
qxotk
Та же проблема здесь, это не «фича» ...
mate64

Ответы:

25

В случае, если кто-то столкнется с этой проблемой, есть способ заставить google-bot повторно загрузить файл robots.txt.

Зайдите в Health -> Fetch as Google [1] и получите его /robots.txt

Это повторно загрузит файл, и Google также повторно проанализирует файл.

[1] в предыдущем пользовательском интерфейсе Google это было «Диагностика -> Выбрать как GoogleBot».

Matt
источник
11
К сожалению, это не будет работать, если ваш robots.txt установлен в Disallow: /. Вместо этого извлечение сообщает «Отказано в robots.txt»: /.
Studgeek
3
В следующий раз добавьте эту строку. Разрешить: /robots.txt
jrosell
Я не могу найти «Диагностика», возможно, пользовательский интерфейс изменился?
Дэвид Риччелли
2
Хорошо, теперь Health> Fetch as Google.
Дэвид Риччелли
Не работает для меня, когда я пытаюсь получить robots.txt. ОШИБКА: «Невозможно сканировать страницу в данный момент, поскольку она заблокирована самым последним файлом robots.txt, загруженным роботом Googlebot. Обратите внимание, что если вы недавно обновили файл robots.txt, его обновление может занять до двух дней. Вы можете найти дополнительную информацию в статье справочного центра о robots.txt. "
Индрек
4

Я знаю, что это очень старая версия, но ... Если вы загрузили неправильный файл robots.txt (запрещающий все страницы), вы можете попробовать следующее:

  • сначала исправьте файл robots.txt, чтобы разрешить правильные страницы, затем
  • загрузите sitemap.xml со своими страницами

Когда Google пытается прочитать карту сайта xml, он проверяет ее снова на robots.txt, заставляя Google перечитать ваш файл robots.txt.

Hussam
источник
Это не сработало для меня. В нем говорится, что карта сайта была заблокирована robots.txt
Джеймс
1

ХОРОШО. Вот что я сделал, и через несколько часов Google перечитал мои файлы robots.txt.

У нас есть 2 сайта для каждого 1 сайта, который мы запускаем. Давайте назовем их каноническим сайтом (www.mysite.com) и сайтом с пустым доменом (mysite.com).

У нас настроены сайты, так что mysite.com всегда возвращает 301, перенаправляющий на www.mysite.com.

Как только я настроил оба сайта в инструментах Google для веб-мастеров, сказал, что www.mysite.com является каноническим сайтом, вскоре после этого он прочитал файл robots.txt на каноническом сайте.

Я действительно не знаю почему, но это то, что случилось.

qxotk
источник
3
Я знаю, что это старо, но принятие вашего собственного ответа на 100% законно
Марк Хендерсон
0

Сократить интервал сканирования Google на несколько дней.

Кроме того, я видел там, чтобы проверить ваш robots.txt, это может заставить его гуглить, но я не уверен.

BarsMonster
источник
Можете быть более конкретными? Я вижу: Конфигурация сайта | Crawler Access | Протестируйте robots.txt, но он проверяет текст, который вы вставляете в поле, а не ваш живой файл robots.txt - также, здесь он сообщает мне, когда он был последний раз загружен. Где находится кнопка «подтвердить», о которой вы говорите?
qxotk