Если вы чувствуете, что они чрезмерно сканируют ваш сайт (возможно, даже пропускают более глубокий контент), вы должны убедиться, что ваши HTTP-заголовки возвращают хорошие значения для таких вещей, как «время последнего изменения» и т. Д. Возможно, робот Google переоценивает, насколько сильно меняется ваш сайт. , В качестве бонуса ваш сайт будет вести себя лучше в отношении кеширования (будь то прокси или на основе браузера) и, таким образом, чувствовать себя немного быстрее.
Вы бы хорошо изучили, какие URL сканируются (просматривая журналы вашего сервера). Если они снова и снова перерабатывают один и тот же URL-адрес, у вас точно есть проблема. Распространенным вариантом является то, что если у вас есть страница, которая может отображаться различными способами с помощью переменных запроса. Googlbot может попытаться просканировать каждую возможную комбинацию этих переменных.
Примером, с которым я сталкивался как оператор сканирования, была страница, содержащая список из двадцати заголовков, любую комбинацию которых можно развернуть. По сути, эта страница имела 2 ^ 20 разных URL!
Убедитесь, что робот Googlebot не застрял, сканируя одну и ту же страницу снова и снова с тривиально разными параметрами (я видел, что это увязло в этом)
Я полагаю, что Google изменяет скорость сканирования в зависимости от возраста сайта, популярности (ссылки на ваш сайт), разметки и заголовка, правильных карт сайта и т. Д. Некоторое время назад они также изменили свой сканер, поэтому контент теперь может появляться в результатах поиска гораздо быстрее, чем раньше. (минимум за 2 недели до смены).
Поэтому, когда я выпустил свой блог 2 года назад, потребовались месяцы Google, чтобы проиндексировать весь контент, и недели, чтобы проиндексировать новые сообщения. Теперь я вижу любой пост в результатах поиска в тот же день, когда опубликовал его.
Это просто, Google не любит новые сайты, но уважает старших.
источник