Это быстро меняющееся событие, на которое еще нет ответа.
Пожалуйста, не публикуйте свои выводы или предположения в качестве ответов; зарезервируйте поле для ответа на тот случай, если у вас есть ответ.
Если у вас есть что - то новое , чтобы добавить, пожалуйста , редактировать его непосредственно в вопросе.
С начала года я получаю много трафика с пользовательским агентом:
Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729).
Мои журналы доступа показывают 40% - 60% от этого пользовательского агента. Это странно, потому что пользовательский агент заявляет браузер Firefox 3.0.10 (кто-нибудь использовал этот браузер в 2012 году? Определенно, не 40% -60% посетителей на обычном веб-сайте).
Кроме того, журналы показывают, что этот пользовательский агент запрашивал только HTML-документ и не ссылается на ресурсы, такие как изображения, файлы CSS, JS.
Я проверил IP-адреса этих запросов (с этим UA). Это приходит со всего мира. Я понял, что на этих IP-адресах иногда есть мобильный пользовательский агент.
Поэтому я подозреваю, что это мобильное приложение, которое выполняет много «запросов пауков». Было бы хорошо узнать основную причину трафика от этого пользовательского агента.
Кто-нибудь может определить основную причину?
За последние пару недель мы поняли, что трафик с этого UA упал, а другой трафик увеличился. Похоже, что бот / сканер теперь использует более распространенный UA, и поэтому его труднее блокировать. Я видел, что кто-то другой сказал это в ответе на этот вопрос, но он был удален, когда serverfault решил переставить этот вопрос.
СТАРЫЕ ответы в качестве ссылки
Обновление от Ди
Я управляю своим собственным довольно посещаемым сайтом и вижу то же самое в наших журналах apache за последний месяц или около того (у меня еще не было возможности проверить еще раз). 40% всех запросов - это процент, который я вижу, что, очевидно, чокнутый.
И я также заметил, что запросы, кажется, всегда говорят, что запрашивающий браузер не поддерживает сжатие gzip - в результате все запросы веб-страниц отправляются несжатыми, а наше использование пропускной способности резко возрастает!
Но до сих пор я не мог определить, что на самом деле происходит - все, что я до сих пор подозреваю, это то, что это может быть какой-то прокси-сервер или что-то подобное для мобильного устройства, которое отправляет поддельную строку useragent.
ИЗМЕНЕНО ДЛЯ ДОБАВЛЕНИЯ: Просто провел еще несколько исследований, и похоже, что это может быть антивирусное программное обеспечение: http://www.webmasterworld.com/search_engine_spiders/4428772.htm
Обновление от jamur21
Да, мы заметили похожий трафик на нескольких сайтах.
Мы все еще ищем основную причину, но некоторые из наших выводов включают в себя:
Если это паук, он делает довольно плохую работу. Похоже, какое-то время (один или два часа) приходится отбивать только один или два URL на домен, пока он не перейдет к другому URL. Тем не менее, контент всегда относительно «актуален», что придает большое значение новостям Google News, как указано в ссылке Ди, размещенной в его / ее ответе (все наши сайты являются новостными сайтами).
Хотя IP-адреса распределены географически, для нас большинство из них, по-видимому, расположены рядом с исходным сайтом (большинство наших сайтов являются местными новостными агентствами, поэтому они не получают большого национального трафика). Почти ни один из запросов не приходит из-за пределов США. Опять же, это придает достоверность URL-адресам, полученным из Google News (я полагаю, что люди, которые локализовали Новости Google по почтовому индексу, увидят наш контент).
В большинстве случаев запросы могут быть записаны как фоновый шум (хотя и особенно шумный), но мы будем делать это пару раз в день, и один только этот UA будет обрабатывать ~ 100 Мбит / с трафика в течение 15-30 минут.
К сожалению, в то время как Новости Google выглядят как возможный вектор для обнаружения этих URL-адресов, все, что мы видели, носит косвенный характер, и у нас до сих пор нет никакого пистолета для курения о том, как и почему эти URL-адреса забиваются.
Обновление от Bannow Bay
У нас есть большой новостной сайт - наши истории попадают в Новости Google несколько раз в неделю. Мы получаем трафик из этого источника с конца ноября - и он растет неделя за неделей - возможно, 30 миллионов импортеров в феврале.
Появление на первой странице Новостей Google в США является спусковым механизмом для этого трафика - около 75 процентов якобы относятся к IP-адресам США. Но что бы это ни было, оно прилагает большие усилия, чтобы скрыть себя. И это не дружелюбно.
Мы также не нашли пистолет для курения, но крупный поставщик средств безопасности любезно согласился провести дальнейшее расследование от нашего имени.
Обновление от Артема Руссаковского
Просто то же самое случилось с новостным сайтом (AndroidPolice.com) в первый раз. Около 10 минут этих случайных запросов, которые подняли QPS более чем на 5000% от нашего среднего значения (5000qps, что является пределом NodeBalancer для Linode). Процессор начал работать на холостом ходу, поскольку запросы поглощали ввод-вывод и сеть - это был настоящий DDOS.
Мне бы очень хотелось докопаться до сути, но на данный момент это кажется совершенно загадочным.
Обновление от Марка
Просто добавляю +1. Мы видим такое же поведение на нашем сайте. Здесь нет тонны новой информации, но вот общая форма нашего трафика:
- Трафик сильно распределен. Трафик поступает с более чем 60 000 уникальных IP-адресов.
- Подавляющее большинство трафика посещает один URL-адрес, обычно последний URL-адрес, указанный в Новостях Google (хотя Новости Google не всегда являются вектором)
- Весь этот трафик поступает от того же пользовательского агента Firefox / 3.0.10, как отмечалось в этой ветке, хотя мы видели некоторых странных мобильных агентов тут и там.
- Весь трафик, поступающий от этого агента, не содержит данных реферера.
- Взрыв происходит один или два раза в неделю в течение 30-60 минут, а затем уходит.
Обновление от Дона Ирландии
Последнее сообщение было 13 апреля, но движение, конечно, не закончилось. Самой странной частью этого может быть тот факт, что любой автор вредоносного ПО, достойный его внимания, может (несомненно) будет использовать строку пользовательского агента из современного браузера, что делает бесполезной защиту блочного пользовательского агента. Этот факт создает впечатление, что источником является «безвредный» агрегатор новостей или какое-либо другое приложение. До сих пор, однако, я также не смог прийти к какому-либо реальному выводу и надеюсь, что кто-нибудь с информацией будет размещать его здесь.
Мы наблюдаем ту же картину: в новостях Google появляются истории, за которыми следуют очень большие всплески трафика с запросом истории (но не в дополнительных файлах, таких как изображения). Исходящий ответный трафик вызывает пики, которые могут насытить сеть (или сделали, пока мы не начали отвечать только с ошибкой 503). Эти атаки (как еще их можно назвать?) Длятся в среднем около 30 минут, но очень популярные истории могут иметь высокий трафик в течение часа или более (я говорю о трафике firefox 3.0.10, конечно, нормальный трафик также остается высоким) на время).
За один час (для одного сервера в группе с балансировкой нагрузки) мы увидели 200 000 запросов, из которых 97 000 были запросами Firefox 3.0.10, почти 50% всех запросов. И если учесть, что обычно страница генерирует 10 или более запросов на основной файл и вспомогательные файлы, то 97 000 вырисовываются намного больше. Я отмечаю, что из 97 000 было 51 000 уникальных IP-адресов. И я говорю об одном часе (фактически это было ближе к 45 минутам). Что бы ни вызывало это, это довольно широко распространено.
Обновление от пользователя119708
У нас такая же проблема на огромном французском новостном веб-сайте.
Всякий раз, когда новость публикуется и просматривается в новостях Google, трафик на новостях значительно увеличивается: от 50 до 100 посещений IP и пользовательским агентом "Mozilla / 5.0 (Windows; U; Windows NT 5.1; en-US; rv: 1.9.0.10 ) Gecko / 2009042316 Firefox / 3.0.10 (.NET CLR 3.5.30729) ".
Все IP-адреса, по-видимому, находятся во Франции или во французских странах и не имеют реферера. Кажется, это бот, но почему один и тот же удаленный адрес должен возвращаться 50 или 100 раз на одни и те же новости в течение нескольких минут? Это могут быть зараженные компьютеры? Почему явление появляется, когда новости видны в новостях Google? Отвечает ли Google за этот странный трафик?
Если бы кто-то в этой теме нашел объяснение, я думаю, это помогло бы многим средним или крупным веб-сайтам контролировать свой трафик!
РЕДАКТИРОВАТЬ: http://2bits.com/botnet/botnet-hammering-web-site-causing-outages.html Если это действительно зараженные компьютеры, это очень беспокоит, учитывая количество задействованных адресов. Мы реализуем этот скрипт для Apache, чтобы блокировать весь трафик:
# Referer is empty
RewriteCond %{HTTP_REFERER} ^$
# User agent is bogus old browser
RewriteCond %{HTTP_USER_AGENT} "Gecko/2009042316 Firefox/3.0.10"
# Forbid the request
RewriteRule ^(.*)$ - [F,L]
Обновление от Эрнесто
Средний испанский новостной сайт, в течение нескольких дней отмечал высокий трафик в некоторых неактуальных новостях.
Кто бы это ни был, он загружает полный HTML, как мы заметили, из-за количества «просмотров страниц», которое мы увеличиваем с помощью обновлений базы данных после загрузки страницы.
Мы замечаем только один или два URL-адреса, ориентированные на каждый день.
Много запросов (7000-12000) по одному и тому же URL за несколько секунд, распределенных в течение дня с разных IP-адресов. Следующие дни нацелены на другие URL.
Нет реферера.
Целевые статьи появились в Новостях Google, но мы не можем гарантировать, что они связаны.
Google Analytics не распознает его как разрешенный трафик. У нас есть статьи с более чем 8000 посещений, и GA сообщает только 25 или около того (я предполагаю, что javascript не был интерпретирован).
Обновление от Old Pro
Добавление нескольких точек данных для вас.
Боты против Браузеров не считают этот UA ботом (пока).
На сайте с наибольшим количеством посещений, для которого у меня есть журналы, использование в мае 2012 года показывает, что этот UA составляет менее 1% трафика. Значительная часть запросов UA представляется законной (например, загрузка всех ожидаемых ресурсов). Это в основном то же самое, что и на февраль 2012 года.
Главная страница этого сайта редко обновляется, и весь динамический контент блокируется robots.txt.
Это, вероятно, от Genieo. Они обновили свое приложение для использования нового пользовательского агента: Mozilla / 5.0 + (совместимый; + Genieo / 1.0 + http://www.genieo.com/webfilter.html ). Он совпадает с исходным пользовательским агентом, но теперь они, кажется, идентифицируют себя. Если вы посмотрите на URL в их пользовательском агенте, они даже признают, что они, возможно, генерировали или все еще генерируют слишком большой трафик на определенные веб-сайты. - дфлау
Обновление от Майка Фагана
Мы уже несколько недель боремся с тем, что, как мы предполагали, были атаками DDOS Мы только начали видеть Genieo в качестве агента для этих атак. Ранее мы видели "Mozilla / 5.0 (Windows; U; Windows NT 5.1; en-US; rv: 1.9.0.10) Gecko / 2009042316 Firefox / 3.0.10 (.NET CLR 3.5.30729)" и тонну запросов от " Mozilla / 5.0 (Windows NT 6.1; rv: 11.0) Gecko / 20100101 Firefox / 11.0 ". 10 000+ различных IP-адресов, от 1 миллиона запросов в день до 3 или 4 страниц, где один и тот же IP запрашивал страницы более 100 раз и не требовал дополнительных ресурсов или рекламы. Я обнаружил, что ни один из этих IP-адресов на самом деле не зашел на другие страницы нашего сайта.
Я связался с Genieo, и это их ответ:
"Благодарим Вас за обращение к нам.
Старая версия Genieo, возможно, вызвала трафик, который вы описываете. Мы приносим извинения за возможные неудобства. Мы выпустили и обновили вчера, чтобы решить эту проблему, загрузка данных из нашего приложения должна исчезнуть в течение следующих 24 часов. Мы верили, что предоставляем хороший сайт вашему сайту, представляя его новым пользователям. Мы не оценили должным образом, что, поскольку наша база установки растет, это может вызвать перегрузку в некоторых случаях.
Genieo - это личная газета или умный читатель RSS. Это клиентская программа для чтения RSS с интеллектуальной фильтрацией семантической персонализации. Приложение Genieo отслеживает данные RSS с любимых сайтов пользователя, «читает» статьи, выполняет семантический анализ и фильтрует их по интересующим их областям. Если статья соответствует интересам пользователя, приложение отображает заголовок и фрагмент статьи на домашней странице пользователя. Нажатие на заголовок приведет к появлению сайта статьи - вашего сайта. Агент Genieo является автономным (по соображениям конфиденциальности); он работает на компьютере конечного пользователя, поэтому вы видите, что агент получает доступ к вашему сайту с разных IP-адресов.
Большая часть данных Genieo поступает из обычных RSS-каналов пользователя, но Genieo также добавляет некоторый контент с новых новостных сайтов, которые ранее не были зарегистрированы пользователями (для случайности и разнообразия). Алгоритмы Genieo ищут «горячие» статьи, популярные хиты Twitter, самые просматриваемые YouTube, а также выделяют новости Google и проверяют, соответствуют ли они интересам пользователя.
Мы не знали, что это вызывает проблему загрузки для какого-либо сайта. Как только это было доведено до нашего сведения, мы обновляем текущих пользователей новой версией, которая предотвращает скачки нагрузки.
С наилучшими пожеланиями,
-Dotan
PS: Мы использовали «Mozilla / 5.0 (Windows NT 6.1; rv: 11.0) Gecko / 20100101 Firefox / 11.0» в прошлом (из-за технической ошибки), но все нынешние пользователи Genieo должны использовать пользовательские агенты Genieo (для последние несколько недель)
источник
Ответы:
Я думаю, что пользователь dflaw нашел его. Это программное обеспечение от Genieo. Мы сделали несколько тестов и связались с ними. Все результаты опубликованы здесь .
источник