Примерно с середины августа 2014 года несколько серверов Google загружали все (очень) большие двоичные файлы с моего веб-сайта примерно раз в неделю. Все IP-адреса отображаются как принадлежащие Google и выглядят следующим образом: google-proxy-66-249-88-199.google.com. Это GET-запросы, и они сильно влияют на трафик моего сервера.
До этого я не видел трафика с этих IP прокси-серверов Google, так что это, кажется, что-то относительно новое. Я вижу все виды трафика с других IP-адресов Google, все они - только запросы googlebot и HEAD.
Я не буду беспокоиться об этом, за исключением того, что все эти файлы загружаются Google примерно каждую неделю или около того. Используемая пропускная способность начинает становиться чрезмерной.
Я предположил, что, поскольку многие из этих файлов являются исполняемыми файлами Windows, возможно, Google загружает их для сканирования вредоносных программ. Даже если это правда, действительно ли это должно происходить каждую неделю?
Пример трафика с IP-адресов Google Proxy за ноябрь:
google-proxy-64-233-172-95.google.com: 8.09 GB
google-proxy-66-102-6-104.google.com: 7.50 GB
google-proxy-66-249-83-245.google.com: 3.35 GB
google-proxy-66-249-84-131.google.com: 1.54 GB
google-proxy-66-249-83-131.google.com: 4.98 GB
google-proxy-66-249-83-239.google.com: 2.48 GB
google-proxy-66-249-88-203.google.com: 2.94 GB
google-proxy-66-249-88-201.google.com: 2.58 GB
google-proxy-66-249-88-199.google.com: 4.89 GB
Обновление № 1: я забыл упомянуть, что эти файлы уже находятся в файле robots.txt сайта. Чтобы убедиться, что конфигурация robots.txt работает правильно, я также использовал тестер robots.txt в Инструментах Google для веб-мастеров, который показывает, что файлы определенно блокируются для всех ботов Google, за одним исключением: Adsbot-Google. Я не уверен, о чем это. И я искал в Google некоторые файлы, и они НЕ появляются в результатах поиска.
Обновление № 2: Пример: между 5:12 и 5:18 по тихоокеанскому времени 17 ноября, около полудюжины IP-адресов (все google-прокси) сделали GET для всех рассматриваемых двоичных файлов, всего 27. 4 ноября между 14:09 и 14:15 по тихоокеанскому времени те же IP-адреса сделали в основном то же самое.
Обновление № 3: На данный момент кажется очевидным, что, хотя это действительные IP-адреса Google, они являются частью прокси-службы Google, а не частью системы сканирования Google в Интернете. Поскольку это прокси-адреса, невозможно определить, где на самом деле исходят GET-запросы или они поступают из одного места или из нескольких. Исходя из спорадической природы GET, не похоже, что происходит что-то гнусное; скорее всего, кто-то решит загрузить все двоичные файлы при использовании прокси-службы Google. К сожалению, этот сервис, похоже, полностью недокументирован, что не помогает. С точки зрения администратора сайта, прокси довольно раздражающие. Я не хочу блокировать их, потому что они имеют законное использование. Но они также могут быть использованы неправильно.
Ответы:
Я провел некоторые исследования по этому вопросу и нашел некоторые интересные вещи, такие как:
1. Это фальшивый гусеничный ход? -> /programming/15840440/google-proxy-is-a-fake-crawler-for-example-google-proxy-66-249-81-131-google-c
Вывод от пользователя:
Мы знаем, что предварительный просмотр не загружает ваши файлы, поэтому давайте перейдем к вопросу 2.
2. Является ли это частью услуг Google? -> Является ли этот прокси-сервер Google поддельным сканером: google-proxy-66-249-81-131.google.com?
Вывод:
Я думаю, что это то же самое, что и выше. Кто-то пытается использовать службу Google для доступа к вашим файлам, например, переводчик.
Если, как вы говорите, файлы уже заблокированы файлом robots.txt, это может быть только запрос вручную.
РЕДАКТИРОВАТЬ: Чтобы обратиться к OP Комментарий широко:
Могут ли сканеры игнорировать файл robots.txt? Да. Вот список, который я не думаю, что Google делает это, что означает, что это могут быть другие боты, использующие прокси Google.
Это может быть плохой бот? Да, и для этого я рекомендую:
Запрет .htaccess:
Этот код может заблокировать IP или пользовательский агент.
Или используйте Ловушку Паука, показанную здесь
Я придерживаюсь своего мнения, что это ручной запрос.
источник