Я настоятельно рекомендую зарегистрировать ваш сайт с помощью Google Search Console (ранее Google Webmaster Tools) . В разделе конфигурации сайта есть раздел доступа для сканера, который сообщит вам о последней загрузке файла robots.txt . Этот инструмент также содержит много подробностей о том, как сканеры видят ваш сайт, что заблокировано или не работает, и где вы появляетесь в запросах в Google.
Из того, что я могу сказать, Google часто скачивает robots.txt . Сайт Google Search Console также позволит вам специально удалять URL-адреса из индекса, чтобы вы могли удалить те, которые вы сейчас блокируете.
Упорствовать. Я перешел с robots.txt на meta noindex, nofollow. Чтобы мета работала, заблокированные адреса в robots.txt должны были быть сначала разблокированы.
Я сделал это жестоко, полностью удалив файл robots.txt (и разделив его в веб-мастере Google).
Процесс удаления robots.txt, как видно из инструмента для веб-мастеров (количество заблокированных страниц), занял 10 недель, из которых основная масса была удалена Google только в течение последних 2 недель.
источник
Да, Google, очевидно, до некоторой степени кеширует robots.txt - он не будет загружать его каждый раз, когда захочет просмотреть страницу. Как долго это кеширует, я не знаю. Однако, если у вас установлен длинный заголовок Expires, робот Google может оставить его намного дольше, чтобы проверить файл.
Другая проблема может быть неправильно настроен файл. В Инструментах для веб-мастеров, которые предлагает Данивович, есть проверка robots.txt . Он скажет вам, какие типы страниц заблокированы, а какие в порядке.
источник
Документация Google гласит, что они обычно кэшируют файл robots.txt в течение дня, но могут использовать его дольше, если при попытке обновить его возникнут ошибки.
источник
Да. Они говорят, что, как правило, обновляют его один раз в день, но некоторые полагают, что они также могут проверить его после определенного количества просмотров страниц (100?), Чтобы более загруженные сайты проверялись чаще.
См. Https://webmasters.stackexchange.com/a/29946 и видео, которым @DisgruntedGoat поделился выше http://youtube.com/watch?v=I2giR-WKUfY .
источник
Из того, что я вижу в доступном для пользователя кэше, вам нужно ввести URL-адрес вашего файла robots.txt в поиск Google, а затем нажать маленькую зеленую стрелку раскрывающегося списка и нажать «кэшировать» (см. Изображение ниже) это даст вам последнюю версию этой страницы с серверов Googles.
источник
Вы можете запросить его удаление с помощью инструмента удаления URL Google .
источник