Понимание статистики Google Crawl

11

Я запустил свой веб-сайт в январе 11 года, и он проиндексирован в Google, и это здорово - около 300 страниц контента. Я пытаюсь понять, что случилось с Crawl Stats в конце июня и начале июля. Что вызвало массовый подъем? Что это значит идти вперед? Есть ли что-то еще, что я должен делать?


введите описание изображения здесь

Ubique
источник

Ответы:

2

Если вы чувствуете, что они чрезмерно сканируют ваш сайт (возможно, даже пропускают более глубокий контент), вы должны убедиться, что ваши HTTP-заголовки возвращают хорошие значения для таких вещей, как «время последнего изменения» и т. Д. Возможно, робот Google переоценивает, насколько сильно меняется ваш сайт. , В качестве бонуса ваш сайт будет вести себя лучше в отношении кеширования (будь то прокси или на основе браузера) и, таким образом, чувствовать себя немного быстрее.

Вы бы хорошо изучили, какие URL сканируются (просматривая журналы вашего сервера). Если они снова и снова перерабатывают один и тот же URL-адрес, у вас точно есть проблема. Распространенным вариантом является то, что если у вас есть страница, которая может отображаться различными способами с помощью переменных запроса. Googlbot может попытаться просканировать каждую возможную комбинацию этих переменных.

Примером, с которым я сталкивался как оператор сканирования, была страница, содержащая список из двадцати заголовков, любую комбинацию которых можно развернуть. По сути, эта страница имела 2 ^ 20 разных URL!

Убедитесь, что робот Googlebot не застрял, сканируя одну и ту же страницу снова и снова с тривиально разными параметрами (я видел, что это увязло в этом)

Kris
источник
Спасибо за это, я заметил, что сегодня был еще один «всплеск» активности, поэтому я становлюсь все более обеспокоенным, поскольку статистика Google Crawl просканировала 1000 страниц контента - у меня только 300 страниц! Как проверить, какие страницы Google сканирует снова и снова? И как я могу проверить, что мои HTTP-заголовки возвращают хорошие значения - это тестовое приложение?
Ubique
Журналы вашего сервера должны указывать, какие страницы Google сканирует. Что касается HTTP-заголовков, существует несколько плагинов Firefox. Лично я использую Firebug.
Крис
1

Я полагаю, что Google изменяет скорость сканирования в зависимости от возраста сайта, популярности (ссылки на ваш сайт), разметки и заголовка, правильных карт сайта и т. Д. Некоторое время назад они также изменили свой сканер, поэтому контент теперь может появляться в результатах поиска гораздо быстрее, чем раньше. (минимум за 2 недели до смены).

Поэтому, когда я выпустил свой блог 2 года назад, потребовались месяцы Google, чтобы проиндексировать весь контент, и недели, чтобы проиндексировать новые сообщения. Теперь я вижу любой пост в результатах поиска в тот же день, когда опубликовал его.

Это просто, Google не любит новые сайты, но уважает старших.

Антон
источник