Не могли бы вы дать мне знать, как заблокировать такие URL-адреса robots.txt
для роботов Google, чтобы они перестали индексироваться?
http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q
Мой веб-сайт был взломан, но теперь он восстановлен, но хакер проиндексировал 5000 URL в Google, и теперь я получаю ошибку 404 по случайно сгенерированным ссылкам, как прежде всего, начиная с /+
ссылки, указанной выше.
Мне было интересно, есть ли быстрый способ, кроме как вручную удалить эти URL из Инструментов Google для веб-мастеров?
Можем ли мы заблокировать это с помощью robots.txt
URL, начинающихся со +
знака?
+
URL-пути нет ничего особенного (плюс), это просто символ, как и любой другой.Ответы:
404, вероятно, предпочтительнее блокировки,
robots.txt
если вы хотите, чтобы эти URL были удалены из поисковых систем (например, Google). Если вы заблокируете сканирование, тогда URL-адрес все еще может оставаться проиндексированным. (Обратите внимание, что вrobots.txt
первую очередь блокирует сканирование , а не индексацию .)Если вы хотите «ускорить» деиндексацию этих URL-адресов, вы, возможно, могли бы подать «410 Gone» вместо обычного «404 Not Found». Вы можете сделать что-то вроде следующего с mod_rewrite (Apache) в вашем корневом
.htaccess
файле:источник
Я собираюсь ответить на 2-й вопрос.
https://developers.google.com/webmasters/hacked/docs/clean_site
Google прямо заявляет, что удаление через Консоль поиска Google (новое название инструментов для веб-мастеров) является самым быстрым.
Но они также понимают, что это невозможно в некоторых случаях:
Таким образом, хотя вы можете заблокировать эти страницы в файле robots.txt, вы не предпринимаете никаких корректирующих действий, описанных Google.
источник
должен делать то, что вы хотите. Он скажет роботу не запрашивать все URL, начиная с
+
.источник
Если вы действительно хотите использовать robots.txt, это будет простой ответ на ваш вопрос. Также я включил ссылку, где вы можете прочитать спецификации на robots.txt.
Читайте о спецификациях robots.txt
Но другой альтернативой может быть использование .htaccess для создания правила перезаписи (если вы используете Apache и т. Д.), Чтобы перехватить их и, возможно, сообщить Google лучший код возврата HTTP или просто перенаправить трафик на какую-то другую страницу.
источник
*
(звездочка) в конце URL-пути. Это должно быть удалено для большей совместимости с пауками.robots.txt
уже совпадает с префиксом, так/+*
же как и/+
для ботов, которые поддерживают символы подстановки, и для ботов, которые не поддерживают символы подстановки, тогда/+*
не будут совпадать вообще.