Сайт был взломан, нужно удалить все URL, начинающиеся с +, из Google, использовать robots.txt?

15

Не могли бы вы дать мне знать, как заблокировать такие URL-адреса robots.txtдля роботов Google, чтобы они перестали индексироваться?

http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q

Мой веб-сайт был взломан, но теперь он восстановлен, но хакер проиндексировал 5000 URL в Google, и теперь я получаю ошибку 404 по случайно сгенерированным ссылкам, как прежде всего, начиная с /+ссылки, указанной выше.

Мне было интересно, есть ли быстрый способ, кроме как вручную удалить эти URL из Инструментов Google для веб-мастеров?

Можем ли мы заблокировать это с помощью robots.txtURL, начинающихся со +знака?

ОООНР
источник
2
В +URL-пути нет ничего особенного (плюс), это просто символ, как и любой другой.
MrWhite
Вы могли бы перенаправить Apache (в .htaccess) в файл или каталог, который robots.txt запрещает доступ роботов
Mawg говорит восстановить Monica
@ Mawg Какой смысл это делать?
MrWhite
Чтобы роботы хорошо себя вели?
Mawg говорит восстановить Монику
2
Независимо от проблемы с URL-адресами, возможно, вы захотите прочитать Как мне работать с взломанным сервером?
Йонас Шефер

Ответы:

30

Мой сайт был взломан, но теперь он восстановлен, но хакер проиндексировал 5000 URL в Google, и теперь я получаю сообщение об ошибке 404

404, вероятно, предпочтительнее блокировки, robots.txtесли вы хотите, чтобы эти URL были удалены из поисковых систем (например, Google). Если вы заблокируете сканирование, тогда URL-адрес все еще может оставаться проиндексированным. (Обратите внимание, что в robots.txtпервую очередь блокирует сканирование , а не индексацию .)

Если вы хотите «ускорить» деиндексацию этих URL-адресов, вы, возможно, могли бы подать «410 Gone» вместо обычного «404 Not Found». Вы можете сделать что-то вроде следующего с mod_rewrite (Apache) в вашем корневом .htaccessфайле:

RewriteEngine On
RewriteRule ^\+ - [G]
MrWhite
источник
14

Я собираюсь ответить на 2-й вопрос.

Мне было интересно, если есть быстрый способ, кроме как вручную удалить эти URL из инструментов Google для веб-мастеров?

https://developers.google.com/webmasters/hacked/docs/clean_site

Google прямо заявляет, что удаление через Консоль поиска Google (новое название инструментов для веб-мастеров) является самым быстрым.

Если хакер создал совершенно новые, видимые пользователю URL-адреса, эти страницы можно будет быстрее удалить из результатов поиска Google, используя функцию удаления URL-адресов в консоли поиска. Это совершенно необязательный шаг. Если вы просто удалите страницы, а затем сконфигурируете свой сервер так, чтобы он возвращал код состояния 404, страницы со временем естественно выпадут из индекса Google.

Но они также понимают, что это невозможно в некоторых случаях:

Решение об использовании удаления URL-адресов, вероятно, будет зависеть от количества созданных новых нежелательных страниц (слишком много страниц может быть неудобно включать в удаление URL-адресов), а также от потенциального ущерба, который эти страницы могут нанести пользователям. Чтобы страницы, отправленные с помощью удаления URL-адресов, не появлялись в результатах поиска, убедитесь, что страницы также настроены на возврат ответа 404 Файл не найден для нежелательных / удаленных URL-адресов.

Таким образом, хотя вы можете заблокировать эти страницы в файле robots.txt, вы не предпринимаете никаких корректирующих действий, описанных Google.

pastepotpete
источник
4
User-Agent: *  
Disallow: /+

должен делать то, что вы хотите. Он скажет роботу не запрашивать все URL, начиная с +.

Sven
источник
2

Если вы действительно хотите использовать robots.txt, это будет простой ответ на ваш вопрос. Также я включил ссылку, где вы можете прочитать спецификации на robots.txt.

User-agent: *
Disallow: /+

Читайте о спецификациях robots.txt

Но другой альтернативой может быть использование .htaccess для создания правила перезаписи (если вы используете Apache и т. Д.), Чтобы перехватить их и, возможно, сообщить Google лучший код возврата HTTP или просто перенаправить трафик на какую-то другую страницу.

davidbl
источник
2
Нет необходимости *(звездочка) в конце URL-пути. Это должно быть удалено для большей совместимости с пауками. robots.txtуже совпадает с префиксом, так /+*же как и /+для ботов, которые поддерживают символы подстановки, и для ботов, которые не поддерживают символы подстановки, тогда /+*не будут совпадать вообще.
MrWhite
Вы правы, я просто написал это на основе его вопроса о Googlebot. Я отредактировал его, чтобы отразить лучшую совместимость с несколькими ботами.
Давидбл