Есть ли в Google кеш robots.txt?

17

Неделю назад я добавил файл robots.txt на один из моих сайтов, что должно было предотвратить попытки робота Google получить определенные URL-адреса. Однако в эти выходные я вижу, как робот Google загружает эти точные URL-адреса.

Кэширует ли Google файл robots.txt и, если да, то должен?

Quog
источник

Ответы:

13

Я настоятельно рекомендую зарегистрировать ваш сайт с помощью Google Search Console (ранее Google Webmaster Tools) . В разделе конфигурации сайта есть раздел доступа для сканера, который сообщит вам о последней загрузке файла robots.txt . Этот инструмент также содержит много подробностей о том, как сканеры видят ваш сайт, что заблокировано или не работает, и где вы появляетесь в запросах в Google.

Из того, что я могу сказать, Google часто скачивает robots.txt . Сайт Google Search Console также позволит вам специально удалять URL-адреса из индекса, чтобы вы могли удалить те, которые вы сейчас блокируете.

danivovich
источник
2
Я проверил инструменты для веб-мастеров: файл robots.txt действителен, и последний раз он был загружен за 17 часов до последнего посещения этих страниц googlebot. Я подозреваю, что это вопрос распространения через сеть Google - в конечном итоге все серверы googlebot будут догонять инструкции robots.txt.
Quog
Робот Google не использует robots.txt так часто, как об обновлениях сообщается в консоли поиска. Прошло четыре недели с тех пор, как я сделал обновление, и бот Google все еще использует плохой файл robots.txt - и это разрушает наш трафик и рейтинг.
Корпоративный Компьютерщик
3

Упорствовать. Я перешел с robots.txt на meta noindex, nofollow. Чтобы мета работала, заблокированные адреса в robots.txt должны были быть сначала разблокированы.

Я сделал это жестоко, полностью удалив файл robots.txt (и разделив его в веб-мастере Google).

Процесс удаления robots.txt, как видно из инструмента для веб-мастеров (количество заблокированных страниц), занял 10 недель, из которых основная масса была удалена Google только в течение последних 2 недель.

araldh
источник
Я склонен согласиться с вами. Мы ошиблись и неправильно обновили файл robots.txt. Google кэшировал его, и он использует его через четыре недели после того, как мы исправили ошибку, и заменил его новым robots.txt. Я даже вручную отправил запрос на обновление в Google Webmaster Tools и ... ничего. Это действительно плохо, так как привело к потере трафика и рейтинга. :(
Корпоративный Компьютерщик
2

Да, Google, очевидно, до некоторой степени кеширует robots.txt - он не будет загружать его каждый раз, когда захочет просмотреть страницу. Как долго это кеширует, я не знаю. Однако, если у вас установлен длинный заголовок Expires, робот Google может оставить его намного дольше, чтобы проверить файл.

Другая проблема может быть неправильно настроен файл. В Инструментах для веб-мастеров, которые предлагает Данивович, есть проверка robots.txt . Он скажет вам, какие типы страниц заблокированы, а какие в порядке.

DisgruntledGoat
источник
См. Комментарий к этому ответу webmasters.stackexchange.com/questions/2272/…
Quog
2
@Quog: посмотрите это недавнее видео: youtube.com/watch?v=I2giR-WKUfY Мэтт Каттс предполагает, что файл robots.txt загружается один раз в день или примерно через каждые 100 запросов.
Рассерженная шлюха
2

Документация Google гласит, что они обычно кэшируют файл robots.txt в течение дня, но могут использовать его дольше, если при попытке обновить его возникнут ошибки.

Запрос robots.txt обычно кэшируется на срок до одного дня, но может кэшироваться дольше в ситуациях, когда обновление кэшированной версии невозможно (например, из-за тайм-аутов или ошибок 5xx). Кэшированный ответ может совместно использоваться разными сканерами. Google может увеличить или уменьшить время жизни кэша, основываясь на максимальных HTTP-заголовках Cache-Control.

Стивен Остермиллер
источник
1

Да. Они говорят, что, как правило, обновляют его один раз в день, но некоторые полагают, что они также могут проверить его после определенного количества просмотров страниц (100?), Чтобы более загруженные сайты проверялись чаще.

См. Https://webmasters.stackexchange.com/a/29946 и видео, которым @DisgruntedGoat поделился выше http://youtube.com/watch?v=I2giR-WKUfY .

studgeek
источник
1

Из того, что я вижу в доступном для пользователя кэше, вам нужно ввести URL-адрес вашего файла robots.txt в поиск Google, а затем нажать маленькую зеленую стрелку раскрывающегося списка и нажать «кэшировать» (см. Изображение ниже) это даст вам последнюю версию этой страницы с серверов Googles.

введите описание изображения здесь

Сэм
источник
-2

Вы можете запросить его удаление с помощью инструмента удаления URL Google .

КОЗАШИ СОУЗА
источник
Это не отвечает на вопрос.
MrWhite
почему не ответ?
КОЗАШИ СОУЗА
Потому что речь идет конкретно о robots.txt, кешировании и сканировании URL. Одним из результатов этого может быть то, что URL не индексируются, но это не вопрос. (Утилита Google для удаления URL также является «временным» исправлением, есть и другие шаги, которые нужно сделать, чтобы сделать его постоянным.)
MrWhite,