Массовая атака 404 с несуществующими URL. Как это предотвратить?

14

По сообщениям Google Webmaster Tools, проблема заключается в полной загрузке 404 ошибок со страницами и запросами, которых там никогда не было. Одним из них является viewtopic.php, и я также заметил пугающее количество попыток проверить, является ли сайт сайтом WordPress ( wp_admin) и для входа в cPanel. Я уже блокирую TRACE, и сервер оснащен некоторой защитой от сканирования / взлома. Тем не менее, это не останавливает. По словам Google Webmaster, рефералом является totally.me.

Я искал решение, чтобы остановить это, потому что оно не очень хорошо для бедных реальных пользователей, не говоря уже о проблемах SEO.

Я использую черный список скоропортящиеся Нажмите мини ( найти здесь ), стандартный ссылающейся блокатор (для порно, травяные, сайты казино), и даже некоторые программы для защиты сайта (XSS блокирование, SQL инъекции, и т.д.). Сервер использует и другие меры, поэтому можно предположить, что сайт безопасен (надеюсь), но это не конец.

У кого-нибудь еще есть такая же проблема, или я один вижу это? Это то, что я думаю, то есть какая-то атака? Есть ли способ исправить это или, лучше, предотвратить бесполезную трату ресурсов?

РЕДАКТИРОВАТЬ Я никогда не использовал вопрос, чтобы поблагодарить за ответы, и надеюсь, что это можно сделать. Спасибо всем за ваши проницательные ответы, которые помогли мне найти выход из этого положения. Я следовал всем предложениям и реализовал следующее:

  • приманка
  • скрипт, который прослушивает подозрительные URL-адреса на странице 404 и отправляет мне электронное письмо с user agent / ip, возвращая при этом стандартный заголовок 404
  • скрипт, который вознаграждает законных пользователей на той же 404 настраиваемой странице, если они в конечном итоге нажмут на один из этих URL-адресов. Менее чем за 24 часа я смог выделить некоторые подозрительные IP-адреса, все они перечислены в Spamhaus. Все IP-адреса, зарегистрированные на данный момент, принадлежат спам-хостинговым VPS-компаниям.

Спасибо всем еще раз, я бы принял все ответы, если бы мог.

tattvamasi
источник
Когда Инструменты Google для веб-мастеров говорят, что реферал - это полностью вы, вы имеете в виду, что они указывают, что страницы на вашем сайте являются ссылочными страницами?
Стивен Остермиллер
Извините моя ошибка. У меня есть эти страницы, которые никогда не существовали в инструментах для веб-мастеров, и Google говорит, что они не найдены. Один из них - mysite.com/viewtopic.php?forget_the_value=1 и связан с полностью.me. Я даже нажал ... Ничего не нашел.
Таттвамаси
2
Обычно в ваших журналах доступа появляется много 404 записей для несуществующих страниц, для проверки уязвимостей (например, WP admin) и т. Д. - вам просто нужно убедиться, что ваш сайт защищен. Однако для того, чтобы об этом сообщал GWT, тогда либо есть ссылки на эти страницы, либо на вашем домене был предыдущий сайт (например, WordPress)?
MrWhite
нет. Самое смешное, что я никогда не использовал WordPress, и я никогда не использовал страницы, которые я видел как 404 ошибки. Некоторые ошибки, которые я действительно вызывал (неправильно введенные URL-адреса во входящих ссылках, с одной страницы на другую), но файла viewtopic.php там никогда не было. Этот сайт работает уже много лет ...
tattvamasi
Когда я говорю «ссылки на эти страницы», я имею в виду другие сайты . Для каждой из ваших 404 ошибок (в GWT) вы сможете развернуть, чтобы показать вам, откуда она «связана».
MrWhite

Ответы:

16

Я часто вижу другой сайт, который ссылается на тонны страниц на моем сайте, которые не существуют. Даже если вы нажимаете на эту страницу и не видите ссылку:

  • Сайт, возможно, ранее имел эти ссылки
  • Сайт может быть скрыт и обслуживать эти ссылки только для робота Google, а не для посетителей.

Это пустая трата ресурсов, но это не смущает Google и не повредит вашему рейтингу. Вот что говорит Джон Мюллер из Google (который работает с Инструментами для веб-мастеров и картами сайтов) о 404 ошибках, которые появляются в инструментах для веб-мастеров :

ПОМОГИТЕ! МОЙ САЙТ ИМЕЕТ 939 КРОЛ ОШИБКИ !! 1

Я вижу подобные вопросы несколько раз в неделю; Вы не одиноки - многие сайты имеют ошибки сканирования.

  1. 404 ошибки на недействительных URL-адресах никоим образом не влияют на индексацию или рейтинг вашего сайта . Неважно, 100 или 10 миллионов, они не повредят рейтинг вашего сайта. http://googlewebmastercentral.blogspot.ch/2011/05/do-404s-hurt-my-site.html
  2. В некоторых случаях ошибки сканирования могут быть вызваны законной структурной проблемой на вашем веб-сайте или в CMS. Как вы говорите? Дважды проверьте источник ошибки сканирования. Если на вашем сайте есть неработающая ссылка в статическом HTML-коде вашей страницы, это всегда стоит исправить. (спасибо + Мартино Мосна )
  3. А как насчет прикольных URL-адресов, которые «явно не работают»? Когда наши алгоритмы любят ваш сайт, они могут попытаться найти на нем более интересный контент, например, пытаясь обнаружить новые URL-адреса в JavaScript. Если мы попробуем эти «URL» и найдем 404, это здорово и ожидаемо. Мы просто не хотим пропустить ничего важного (вставьте сюда слишком привязанный мем Googlebot). http://support.google.com/webmasters/bin/answer.py?answer=1154698
  4. Вам не нужно исправлять ошибки сканирования в Инструментах для веб-мастеров. Функция «пометить как исправленную» предназначена только для того, чтобы помочь вам, если вы хотите отслеживать свой прогресс в этом деле; это ничего не меняет в нашем конвейере веб-поиска, поэтому не стесняйтесь игнорировать это, если вам это не нужно. http://support.google.com/webmasters/bin/answer.py?answer=2467403
  5. Мы перечисляем ошибки сканирования в Инструментах для веб-мастеров по приоритету, что основано на нескольких факторах. Если первая страница ошибок сканирования явно не имеет значения, вы, вероятно, не найдете важных ошибок сканирования на других страницах. http://googlewebmastercentral.blogspot.ch/2012/03/crawl-errors-next-generation.html
  6. Нет необходимости «исправлять» ошибки сканирования на вашем сайте. Поиск 404 - это нормально и ожидается от здорового, хорошо настроенного веб-сайта. Если у вас есть эквивалентный новый URL-адрес, то перенаправление на него является хорошей практикой. В противном случае вам не следует создавать фальшивый контент, вы не должны перенаправлять на свою домашнюю страницу, вы не должны robots.txt запрещать эти URL-адреса - все это затрудняет нам распознавание структуры вашего сайта и его правильную обработку. Мы называем эти «мягкие 404» ошибки. http://support.google.com/webmasters/bin/answer.py?answer=181708
  7. Очевидно - если эти ошибки сканирования появляются для нужных вам URL-адресов, возможно, для URL-адресов в файле Sitemap, то вам следует немедленно принять меры. Если робот Googlebot не может сканировать ваши важные URL-адреса, они могут быть исключены из наших результатов поиска, и пользователи также не смогут получить к ним доступ.
Стивен Остермиллер
источник
спасибо, хотя я читал о ком-то, кто утверждал, что атака 404 отрицательно повлияла на их рейтинг страницы (обсуждение на форуме Google для веб-мастеров, как только я его получу, я опубликую его здесь), а некоторые утверждают, что ошибки 404 действительно учитываются (Google не все говорят, утверждают эти люди), так что это одна из моих проблем, и другой вопрос в том, кто намеренно пишет в Твиттере неправильные ссылки на мой сайт и почему, если он ничего не должен делать для SEO? Принял ответ :)
tattvamasi
totally.me это настоящий сайт. Есть много тысяч мусорных сайтов, которые очищают и публикуют ссылки для привлечения пользователей. Это форма рассылки спама. Иногда эти ссылки существуют только в течение короткого периода времени. В основном, это делается для того, чтобы повлиять на более мелкие и менее сложные поисковые системы с большей частью региональной аудитории, наиболее часто встречающейся в России и Польше, хотя есть много других. Подобные ссылки часто берутся из баз данных, которые были переданы в результате предыдущих попыток очистки, так что старые ссылки появятся вновь, а новые сайты будут периодически появляться. С этим ничего не поделаешь.
closetnoc
2
«Атака 404» определенно НЕ повлияет на рейтинг страницы вашего сайта и его рейтинг. (Если ваши конкуренты тратят время на ссылки на страницы 404, это меньше времени на то, чтобы делать что-то полезное, так что будьте счастливы.) Предполагается, что сайты имеют 404, это признак того, что вы правильно настроили сервер так что если что, это будет хорошим сигналом для нас.
Джон Мюллер
5

Существует множество сценариев, которые оптимистично сканируют случайные IP-адреса в Интернете, чтобы найти уязвимости, известные в различных видах программного обеспечения. В 99,99% случаев они ничего не находят (как на вашем сайте), и что в 0,01% случаев сценарий отбивает машину и делает все, что хочет контроллер сценария. Как правило, эти сценарии запускаются анонимными ботнетами с компьютеров, которые ранее были pwnd, а не с фактической машины исходного сценария.

Что вы должны сделать?

  1. Убедитесь, что ваш сайт не уязвим. Это требует постоянной бдительности.
  2. Если это создает настолько большую нагрузку, что это влияет на нормальную производительность сайта, добавьте правило блокировки на основе IP, чтобы избежать принятия соединений с определенного сайта.
  3. Научитесь отфильтровывать сканы для CMD.EXE, cPanel, phpMyAdmin или множества других уязвимостей при просмотре журналов сервера.

Похоже, вы верите, что любые 404, возвращенные с вашего сервера кому-либо, будут влиять на то, что Google думает о вашем сайте. Это неправда. Только 404, возвращенные сканерами Google и, возможно, пользователями Chrome, влияют на ваш сайт. Пока все ссылки на вашем сайте являются правильными ссылками, и вы не лишаете законной силы ссылки, которые вы ранее открывали миру, вы не увидите никакого влияния. Боты-скрипты никак не общаются с Google.

Если вас атакуют реальным способом, вам необходимо подписаться на какую-либо услугу поставщика услуг по смягчению последствий DoS. Verisign, Neustar, CloudFlare и Prolexic - все поставщики, которые имеют различные виды планов для различных видов атак - от простого веб-прокси (который может даже быть бесплатным у некоторых провайдеров) до DNS на основе фильтрации по требованию до полной BGP основанные на колебаниях точки присутствия, которые отправляют весь ваш трафик через «чистящие» центры обработки данных с правилами, которые смягчают атаки.

Но это звучит из того, что вы говорите, что вы просто видите обычные скрипты уязвимости, которые любой IP в Интернете увидит, если он прослушивает порт 80. Вы можете буквально установить новую машину, запустить пустой Apache, и через несколько часов вы увидите эти строки в журнале доступа.

Джон Ватт
источник
Большое спасибо - я поищу дополнительные фильтры, хотя защита сервера и сайта настолько высока, что иногда законный пользователь попадает на запрещенную страницу. В ответ на «Только 404-е возвращено сканерами Google и, возможно, пользователями Chrome», я должен добавить, что нашел эти ссылки в Инструментах Google для веб-мастеров, поэтому я могу с уверенностью предположить, что они сканируются ...
tattvamasi
Вам нужно выяснить, почему Google попадает на эти несуществующие страницы. Например, если вы пропустите сторонних пользователей в свои журналы доступа, Google сможет получить к ним доступ. Вы не должны впускать сторонние стороны в тех. Кроме того, безопасность - это гораздо больше, чем правильная принудительная корректность, а не эвристическая «защита», которую вы добавляете извне. Я смотрю на сторонние «плагины безопасности» со скептицизмом. Когда сайт делает именно то, что я хочу, и только это, он (по определению) является безопасным.
Джон Уотт
3

Это, вероятно, на самом деле не атака, а сканирование или исследование.

В зависимости от сканера / пробера, он может быть доброкачественным, то есть он просто ищет проблемы в каком-либо типе исследовательских возможностей или может иметь функцию автоматической атаки, если обнаружит открытие.

Веб-браузеры размещают действительную информацию о реферерах, но другие программы могут просто составлять любой реферер, который им нравится.

Реферер - это просто часть информации, которая необязательно предоставляется программами, имеющими доступ к вашему веб-сайту. Это может быть все, что они захотят установить, например, totally.meили random.yu. Это может быть даже настоящий веб-сайт, который они только что выбрали.

Вы не можете исправить это или предотвратить это. Если вы пытаетесь заблокировать каждый запрос такого типа, вам придется вести очень большой список, и это того не стоит.

Пока ваш хост следит за исправлениями и предотвращает уязвимости, это не должно вызывать у вас никаких реальных проблем.

Grax32
источник
1
Если в Google WMT появляются 404, то это из реальной ссылки где-то. totally.me это настоящий сайт.
closetnoc
да, total.me - настоящий сайт, и некоторые неправильные ссылки, по которым я пришел, были моей ошибкой (опечатки в кнопке твита). Теперь есть эта массовая ссылка на viewtopic.php /? Любую страницу на моем сайте, которую я клянусь, никогда там не было. Я даже могу определить пользователя, который написал это (сейчас на этой странице ничего нет, но я предполагаю, что было много). Тенденции тегов тоже имели заведомо неправильный URL. Что меня беспокоит, так это пользовательский опыт, использование ресурсов и наблюдение, что Google сканирует эти фальшивые 404. С другой стороны, я не могу запретить всему миру не найденную страницу. Не уверен, что делать.
Таттвамаси
3

На самом деле это звучит как бот-безумие. Нас также забивают тысячи IP-адресов на многих хостах, скорее всего, без ведома сайта OP. Прежде чем я предложу некоторые полезные решения, один вопрос, который у меня есть, это:

Вопрос: Как вы видите 404 с вашего сайта в целом в инструментах Google для веб-мастеров? GWT - это вывод результатов Googlebots, а не вывод других ботов. Кроме того, эти другие боты не запускают JS для аналитики ... у вас есть какая-то API-функция, идущая в GWT, где вы можете увидеть статистику вашего сервера? Если нет, то это может быть причиной для тревоги, так как это Googlebot сам находит ошибки.

  • Если это просто ошибки googlebot, это может указывать на то, что кто-то установил ссылки на ваш сайт на форумах и что-то еще для целей, на которых злоумышленники бьют настоящие люди-ПК. Представьте себе, что harverstor + planter работает на каком-то эксплуатируемом сервере, устанавливая тонну целей для будущих «спам-контрактов», через которые будет проходить портал.

  • Если вы действительно знаете, что он сообщает о вашей полной статистике сервера, то вам нужны некоторые инструменты. Несколько приложений и сервисов могут помочь вам урезать его. Предполагая, что вы работаете на сервере Linux:

1) Начните добавлять нарушающие IP-адреса в черный список htaccess. Похоже, «отрицать от 192.168.1.1» и будет запрещено 403. Не увлекайся, просто заблокируй Биггены. Сравните их с сайтами в шаге 4), чтобы убедиться, что они не настоящие интернет-провайдеры. Вы можете скопировать этот файл и прикрепить его к любой учетной записи / приложению даже за пределами брандмауэра.

2) Установите APF. его действительно легко управлять брандмауэром через SSH в Linux. При сборке ht добавляйте их в APF примерно так: "apf -d 192.168.1.1". Ht кажется избыточным из-за APF, но Ht является переносимым.

3) Установите cPanel Hulk и убедитесь, что ваши IP-адреса внесены в белый список, чтобы он никогда не блокировал вас, если вы забудете пропуск. Это также будет хорошим источником IP для добавления в ht + apf. У него есть некоторые хитрости, так что он может разумно смягчить попытки входа в систему грубой силы.

4) Подключитесь к stopforumspam.com и projecthoneypot.org и запустите их модули. Оба помогают много отказать в известных запросах и идентифицировать + сообщать о новых brutes / nets / chinaspam. Вы также можете использовать почтовые фильтры, но Gmail владеет ими, когда дело доходит до спам-фильтра.

5) Поскольку боты никогда не отступают, защитите ваши пути администратора. Если вы запустите WordPress, измените путь администратора, добавьте капчу и т. Д. Если вы используете SSH, измените порт входа на что-то неиспользуемое, а затем отключите корневой вход SSH. Создайте «radmin», в который вы должны войти сначала, а затем su для root.

  • Примечание о капче: если вы запускаете свою собственную капчу на сайте с большим объемом и не отрицаете бешенство ботов на уровне брандмауэра / ht, возможно, они бьют циклы вашего процессора из-за генерации изображений во всех этих виджетах «антиспам».

  • Замечание о нагрузке: если вы запускаете CentOS на своем сервере и обладаете возможностями VPS, CloudLinux отлично подходит для усиления защиты и контроля нагрузки. Скажем, бот проходит, CageFS существует, чтобы ограничить его в учетной записи. Скажем, они решают DDoS .... LVE существует для того, чтобы держать загрузку учетной записи (сайта) ограниченной, чтобы не сбить ваш сервер. Это хорошее дополнение, чтобы акцентировать всю систему «недобросовестного управления сущностями» :)

Просто некоторые мысли, я надеюсь, что это поможет вам

dhaupin
источник
Благодарю. Тот факт, что я вижу эти ошибки на веб-мастерах Google, заставляет меня думать - как вы правильно заметили - что-то вроде «NSEO» (установка сотен ссылок на мой сайт, которых там никогда не было). Сайт безопасен, потому что такого рода атаки ничего не делают. Я не уверен, что безопасен для SEO / пользовательского опыта (если Google начинает индексировать несуществующие страницы, я попадаю в тупик. Ошибки уже привели к падению рейтинга сайта, кстати). Еще раз спасибо.
Таттвамаси
1
Gbot не будет индексировать 404 страницы, так что это не повлияет на ваш SEO. Может кэшировать другие страницы, отправляющие трафик, но не ваши. Если это становится проблемой для реальных людей, создайте огромный редиректор для двухъярусных ссылок, таких как wp-admin, сделайте так, чтобы они попали в приятную статью для людей о том, почему они могут видеть эту страницу. Дайте им купон на 404, если вы ecom. Просто помните, чтобы пометить их как фиксированные в GWT, чтобы он индексировал + кэшировал ваш новый сервер. При желании можно поставить черную дыру для плохих ботов. В любом случае, будьте готовы к прямым попаданиям, если в этом спамнете есть ссылки для вас.
дхаупин
Благодарю. На данный момент я пытаюсь увидеть, смягчает ли программный код 404 в случае сгенерированных мною ошибок немного. Страница 404 уже является пользовательской и даст вам полезные ссылки (если она сможет их найти). В случае ошибочного написания мной, я бросаю 301 редирект на правильную страницу (Google видит их как мягкие 404, я думаю). В случае этого барахла /RK=0/RS=YkUQ9t4mR3PP_qt7IW8Y2L36PFo-/, /blog/wp-login.php/, /user/create_form/, /m/, /RK=0/RS=lznPhspsSDFHMiuIUDmmo01LA7w-/( и т.д. ...) Я входе пользователя и возвращение 404. Надеюсь , что я делаю это правильно
tattvamasi
1

Объяснение проблемы

Прежде всего, вы не единственный, у кого есть эта проблема - все. То, что вы видели, является результатом того, что автоматизированные боты сканируют каждый IP и ищут общие уязвимости. Таким образом, они в основном пытаются выяснить, что вы используете, и если вы используете phpmyadmin, они позже попытаются создать набор стандартных комбинаций паролей имени пользователя.

Я удивлен, что такого рода вещи вы нашли только сейчас (возможно, вы только что запустили свой сервер). Проблема в том, что вы не можете заблокировать их IP-адрес навсегда (скорее всего, это зараженный компьютер, и его реальный пользователь не знает, что он делает, также таких IP-адресов много).

SEO эффект

Это никак не влияет. Это просто означает, что кто-то пытался получить доступ к чему-то на вашем компьютере, а его там не было

Это действительно имеет значение?

Конечно, эти люди пытаются проверить вас на наличие проблем. Более того, они тратят впустую ваши ресурсы (ваш сервер должен как-то реагировать) и загрязняют ваш лог-файл.

Как мне это исправить

У меня была та же проблема, которую я пытался исправить, и лучший инструмент (простота использования против того, что я могу с ним сделать), я смог найти это fail2ban

Вам также повезло, потому что я уже нашел способ исправить ту же проблему и даже задокументировал ее здесь (так что вам не нужно искать, как ее установить и как заставить ее работать). Проверьте мой вопрос на ServerFault . Но, пожалуйста, прочитайте немного о fail2ban, чтобы знать, как это работает.

Сальвадор Дали
источник
1

Как уже говорили многие, это не атака, а попытка проверить или просканировать приложение вашего сайта и / или возможности вашего сервера. Лучший способ отфильтровать весь этот бесполезный трафик и потенциально опасное сканирование - это реализовать WAF (брандмауэр веб-приложений). Это перехватит все различные попытки и пометит их, и только после этого отправит реальный законный чистый трафик на ваши серверы и в веб-приложение.

Вы можете использовать облачный DNS WAF или выделенные устройства. Я лично использую Incapsula и F5 ASM для разных клиентских сайтов. Затраты составляют всего 500 долларов в месяц и очень помогают. Это также обеспечивает лучшую защиту ваших клиентов и уменьшает ресурсы на самих веб-серверах, что сэкономит ваши деньги и увеличит скорость, плюс эти устройства предлагают соответствие PCI 6.6 и обзоры с отчетами.

Надеюсь это поможет.

Tony-Caffe
источник
Если это была просто «попытка исследовать», то как вы объясните тот факт, что эти 404-ые, по-видимому, были зарегистрированы в GWT?
MrWhite