Робот Google отправляет тысячи запросов в наш локатор карт и использует квоту API

У нас есть страница поиска магазина на сайте нашего клиента. Конечный пользователь вводит свой почтовый индекс и радиус поиска, и мы отображаем результаты на карте Google.

Недавно мы начали замечать, что сайт достигает лимита бесплатного поиска по карте (примерно 25 000 в сутки) без заметного увеличения общего трафика. Я включил некоторые дополнительные журналы, чтобы попытаться найти проблему.

Оказывается, Googlebot проталкивает тысячи поисков на этой карте. Это небольшой образец:

2017-07-09 23: 56: 22,719 [7] INFO ShopLanding - [Тема 41] Google Maps: поиск G23 получен в порядке с 66.249.66.221
2017-07-09 23: 56: 35,469 [7] INFO ShopLanding - [Тема 10] Google Maps: поиск CA6 получен в порядке с 66.249.66.221
2017-07-09 23: 57: 24,563 [7] INFO ShopLanding - [Тема 48] Google Maps: поиск BN14 получен в порядке с 66.249.66.223
2017-07-09 23: 58: 00,970 [7] INFO ShopLanding - [Тема 42] Google Maps: поиск CB4 получен в порядке с 66.249.66.221
2017-07-09 23: 58: 13,064 [7] INFO ShopLanding - [Тема 54] Google Maps: поиск DY9 получен в порядке с 66.249.66.221
2017-07-09 23: 59: 18,722 [7] INFO ShopLanding - [Тема 59] Google Maps: поиск TS3 получен в порядке с 66.249.66.223
2017-07-09 23: 59: 53,223 [7] INFO ShopLanding - [Тема 49] Google Maps: поиск S45 получен в порядке с 66.249.66.221

Есть ли способ, которым я могу помешать Google проталкивать столько запросов? Это съедает значительную часть бесплатного пособия. Законные обыски, кажется, менее 200 в день.

РЕДАКТИРОВАТЬ

Сайт построен на C # ASP.NET. Поиск магазина использует POST, URL не изменяется при отправке. Я могу опубликовать образец журналов IIS завтра утром, чтобы подтвердить это поведение.

web-crawlers google-maps Burgi
источник

Имеют ли смысл элементы, которые ищет робот Google? «G23» и «CA6» для меня ничего не значат. Робот Googlebot обычно не передает случайные данные в формы. Обычно он сканирует только выпадающие параметры, предварительно заполненные данные или ссылки на запросы. Эти значения на сайте где-то в виде списка? Кроме того, как ваши URL выглядят для этих запросов?

Стивен Остермиллер

@StephenOstermiller - это частичные почтовые индексы Великобритании, в частности, идентификатор района. Это должны быть POSTзапросы на AJAX, хотя я проверю журналы IIS.

Бурги

В сторону: что это за "бесплатный поиск по карте"?

MrWhite

@SamWeaver IP-адрес разрешается как робот Google, а соответствующая запись в журнале IIS имеет агента пользователя Googlebot. По общему признанию оба из них могут быть подделаны.

Бурги

Использует ли ваш локатор магазина строку запроса (запрос GET)? Какова грубая структура URL страницы вашего магазина, меняется ли она (строка запроса) при поиске пользователя? Если вы можете объяснить функциональную / техническую сторону более подробно, то на нее можно ответить более эффективно.

TopQnA

Ответы:

Чтобы запретить googlebot выполнять поиск через googlemaps, поместите файл с именем robots.txtв корень вашего домена. например, https://www.wikipedia.org/robots.txt

Пример файла robots.txt:

User-agent: Googlebot
Disallow: /search-store/

Где / search-store / - страница, отправляющая запрос на карты Google.

Если это происходит не от Googlebot, вы можете отключить все сканирование на этой странице с помощью:

User-agent: *
Disallow: /search-store/

Обратите внимание, что это не остановит некорректно работающие скрипты, которые игнорируют robots.txt.

satibel
источник

Обратите внимание, что вы все равно не хотите, чтобы Google и другие поисковые системы делали паузы на этих страницах!

Ари

Я не уверен, является ли блокировка всего магазина поиска правильным вариантом, возможно, нам нужно понять строку запроса и т. Д. То есть, пусть Google читает, но не отправляет слишком много запросов. Блокировка всего магазина поиска должна быть последним вариантом.

TopQnA

Поиск с ограничением скорости может быть еще одним вариантом, скажем, после 25 поисков вам нужно остыть в течение часа между каждым поиском. Это остановит ботов и гнусных людей, но не обычных пользователей.

satibel

Если страница предназначена только для поиска местоположения магазина, я сомневаюсь, что было бы полезно сначала проиндексировать ее. Это будет зависеть от структуры сайта. Кроме того, robots.txt проще / быстрее (и, следовательно, дешевле) реализовать как быстрое решение, чем несколько часов для ограничения скорости. @TopQnA

satibel

Что ж, местоположение магазина очень важно для пользователя, и большинство людей ищет магазин со ссылкой на местоположение в Google, и если локатор магазина может создать карту с полезной информацией с уникальным URL для каждого магазина, то это было бы гораздо более полезно для Пользователь. И именно поэтому блокировка должна быть последним вариантом.

TopQnA