Могу ли я вызвать Google, чтобы проверить мой robots.txt?

11

Я прочитал ответы на этот вопрос, но они все еще оставляют мой вопрос открытым: кеширует ли Google robots.txt?

В Инструментах Google для веб-мастеров я не нашел способа повторно загрузить файл robots.txt .

Из-за какой-то ошибки мой robots.txt был заменен на:

User-agent: *
Disallow: /

И теперь весь мой контент был удален из результатов поиска Google.

Очевидно, я заинтересован в том, чтобы исправить это как можно скорее. Я уже заменил robots.txt , но не могу найти способ заставить Google обновить кэшированную версию.

введите описание изображения здесь

Der Hochstapler
источник
1
Просто запрещая все ваши страницы в robots.txt должны , как правило , не достаточно , чтобы полностью удалить их из результатов Google, до тех пор , как другие сайты до сих пор ссылаются на них.
Илмари Каронен
Хм это сложно. URL-адреса ZenCart, похоже, сбивают с толку робота-робота robots.txt, и, прежде чем вы это узнаете, вы заблокировали URL-адреса, которые не нужно блокировать. По моему опыту, вам лучше не использовать robots.txt, а просто поддерживать чистый веб-сайт. Я потерял много мест в Интернете из-за этой ошибки robots.txt, блокирующей действительные URL. Поскольку ZenCart использует динамические URL-адреса, он, похоже, сбивает с толку веб-сканер robots.txt, что приводит к блокировке URL-адресов, которые вы не ожидаете заблокировать. Не уверен, связано ли это с отключением категории в ZenCart и последующим перемещением продуктов из этой категории a

Ответы:

10

Вы не можете заставить их повторно загружать ваш robots.txt, когда вы этого хотите. Google будет повторно сканировать его и использовать новые данные всякий раз, когда они считают, что они подходят для вашего сайта. Они обычно сканируют его регулярно, поэтому я не ожидаю, что это займет много времени, пока ваш обновленный файл не будет найден, а ваши страницы повторно просканированы и повторно проиндексированы. Имейте в виду, что может потребоваться некоторое время после того, как новый файл robots.txt будет найден, прежде чем ваши страницы будут повторно сканированы, и еще больше времени для их повторного появления в результатах поиска Google.

Джон Конде
источник
1
По их словам, они проверяют каждый день или около того, но они, вероятно, чаще проверяют занятые сайты. См. Webmasters.stackexchange.com/a/32949/17430 .
Studgeek
1

Я столкнулся с той же проблемой, когда начал свой новый веб-сайт www.satyabrata.com16 июня.

Я был Disallow: /в моем файле robots.txt , так же , как Оливер. В Инструментах Google для веб-мастеров также было предупреждение о заблокированных URL.

Проблема была решена вчера, 18 июня. Я сделал следующее. Я не уверен, какой шаг сработал.

  1. Здоровье -> Получить как Google: robots.txt и домашняя страница. Затем отправьте в индекс.
  2. Настройки -> Предпочитаемый домен: отображать URL как www.satyabrata.com
  3. Оптимизация -> Карта сайта: добавлена ​​карта сайта XML.

Предупреждающее сообщение о заблокированных URL-адресах исчезло, и в инструментах Google для веб-мастеров отображается загруженный свежий файл robots.txt .

В настоящее время у меня есть только две страницы, проиндексированные в Google, домашняя страница и robots.txt . У меня есть 10 страниц на сайте. Я надеюсь, что остальные скоро будут проиндексированы.

Сатьябрата дас
источник
0

У меня возникла проблема, когда изображения были перемещены на отдельный сервер CNAME, а в папку с изображениями был помещен запрет. Я понял, что файл robots.txt, полученный из Инструментов для веб-мастеров, читается как инструмент Google. Как только он сказал мне, что нашел и прочитал robots.txt, я отправил его. Это нарушило трехмесячное эмбарго на сканирование изображений, когда Google сообщил, что читает файл robots.txt, но не изменил его паук, чтобы он соответствовал правилам, которые были изменены, чтобы разрешить использование папки изображений. В течение недели изображения снова были проиндексированы.

Может стоит попробовать. Известно, что Google иногда застревает и не может перечитать файл.

Fiasco Labs
источник
Они перечитали файл примерно через 6 часов после того, как я написал. Теперь все нормализовалось.
Der Hochstapler
Уф! Тогда вернитесь на путь!
Fiasco Labs
Я пытался попросить инструменты для веб-мастеров загрузить robots.txt, он пожаловался, что robots.txt отклонил его :). Очевидно, что этот трюк не сработает, если robots.txt делает полный блок.
Studgeek
То же самое и здесь ... Запрос robots.txt отклонен robots.txt! Хах!
Kasapo
Дракончик, если вы положите отрицание на корень, то я думаю, что вы вроде SOL. В моем случае это была подпапка, в которой было отказано, поэтому принудительное перечитывание файла robots.txt с помощью предоставленных механизмов действительно работало.
Fiasco Labs
-1

В моем случае проблема заключалась в том, что я использовал бесплатный сервис DNS под названием fear.org.

(мой бесплатный домен закончился .us.to)

Как только я перешел на TLD, он начал работать.

Стефан Монов
источник
Я не вижу, что DNS или наличие бесплатного сайта связано с robots.txt или что Google говорит, чтобы он его обновил.
Стивен Остермиллер
@StephenOstermiller: я тоже не вижу, но на самом деле это помогло в моем случае.
Стефан Монов
Это помогло Google проверить ваш robots.txt?
Стивен Остермиллер
@StephenOstermiller: Да.
Стефан Монов