Робот Google отправляет тысячи запросов в наш локатор карт и использует квоту API

10

У нас есть страница поиска магазина на сайте нашего клиента. Конечный пользователь вводит свой почтовый индекс и радиус поиска, и мы отображаем результаты на карте Google.

Недавно мы начали замечать, что сайт достигает лимита бесплатного поиска по карте (примерно 25 000 в сутки) без заметного увеличения общего трафика. Я включил некоторые дополнительные журналы, чтобы попытаться найти проблему.

Оказывается, Googlebot проталкивает тысячи поисков на этой карте. Это небольшой образец:

2017-07-09 23: 56: 22,719 [7] INFO ShopLanding - [Тема 41] Google Maps: поиск G23 получен в порядке с 66.249.66.221
2017-07-09 23: 56: 35,469 [7] INFO ShopLanding - [Тема 10] Google Maps: поиск CA6 получен в порядке с 66.249.66.221
2017-07-09 23: 57: 24,563 [7] INFO ShopLanding - [Тема 48] Google Maps: поиск BN14 получен в порядке с 66.249.66.223
2017-07-09 23: 58: 00,970 [7] INFO ShopLanding - [Тема 42] Google Maps: поиск CB4 получен в порядке с 66.249.66.221
2017-07-09 23: 58: 13,064 [7] INFO ShopLanding - [Тема 54] Google Maps: поиск DY9 получен в порядке с 66.249.66.221
2017-07-09 23: 59: 18,722 [7] INFO ShopLanding - [Тема 59] Google Maps: поиск TS3 получен в порядке с 66.249.66.223
2017-07-09 23: 59: 53,223 [7] INFO ShopLanding - [Тема 49] Google Maps: поиск S45 получен в порядке с 66.249.66.221

Есть ли способ, которым я могу помешать Google проталкивать столько запросов? Это съедает значительную часть бесплатного пособия. Законные обыски, кажется, менее 200 в день.

РЕДАКТИРОВАТЬ

Сайт построен на C # ASP.NET. Поиск магазина использует POST, URL не изменяется при отправке. Я могу опубликовать образец журналов IIS завтра утром, чтобы подтвердить это поведение.

Burgi
источник
Имеют ли смысл элементы, которые ищет робот Google? «G23» и «CA6» для меня ничего не значат. Робот Googlebot обычно не передает случайные данные в формы. Обычно он сканирует только выпадающие параметры, предварительно заполненные данные или ссылки на запросы. Эти значения на сайте где-то в виде списка? Кроме того, как ваши URL выглядят для этих запросов?
Стивен Остермиллер
@StephenOstermiller - это частичные почтовые индексы Великобритании, в частности, идентификатор района. Это должны быть POSTзапросы на AJAX, хотя я проверю журналы IIS.
Бурги
В сторону: что это за "бесплатный поиск по карте"?
MrWhite
1
@SamWeaver IP-адрес разрешается как робот Google, а соответствующая запись в журнале IIS имеет агента пользователя Googlebot. По общему признанию оба из них могут быть подделаны.
Бурги
1
Использует ли ваш локатор магазина строку запроса (запрос GET)? Какова грубая структура URL страницы вашего магазина, меняется ли она (строка запроса) при поиске пользователя? Если вы можете объяснить функциональную / техническую сторону более подробно, то на нее можно ответить более эффективно.
TopQnA

Ответы:

11

Чтобы запретить googlebot выполнять поиск через googlemaps, поместите файл с именем robots.txtв корень вашего домена. например, https://www.wikipedia.org/robots.txt

Пример файла robots.txt:

User-agent: Googlebot
Disallow: /search-store/

Где / search-store / - страница, отправляющая запрос на карты Google.

Если это происходит не от Googlebot, вы можете отключить все сканирование на этой странице с помощью:

User-agent: *
Disallow: /search-store/

Обратите внимание, что это не остановит некорректно работающие скрипты, которые игнорируют robots.txt.

satibel
источник
10
Обратите внимание, что вы все равно не хотите, чтобы Google и другие поисковые системы делали паузы на этих страницах!
Ари
1
Я не уверен, является ли блокировка всего магазина поиска правильным вариантом, возможно, нам нужно понять строку запроса и т. Д. То есть, пусть Google читает, но не отправляет слишком много запросов. Блокировка всего магазина поиска должна быть последним вариантом.
TopQnA
Поиск с ограничением скорости может быть еще одним вариантом, скажем, после 25 поисков вам нужно остыть в течение часа между каждым поиском. Это остановит ботов и гнусных людей, но не обычных пользователей.
satibel
Если страница предназначена только для поиска местоположения магазина, я сомневаюсь, что было бы полезно сначала проиндексировать ее. Это будет зависеть от структуры сайта. Кроме того, robots.txt проще / быстрее (и, следовательно, дешевле) реализовать как быстрое решение, чем несколько часов для ограничения скорости. @TopQnA
satibel
Что ж, местоположение магазина очень важно для пользователя, и большинство людей ищет магазин со ссылкой на местоположение в Google, и если локатор магазина может создать карту с полезной информацией с уникальным URL для каждого магазина, то это было бы гораздо более полезно для Пользователь. И именно поэтому блокировка должна быть последним вариантом.
TopQnA