Сайт разработчика проиндексирован Google

8

Я разрабатывал новую версию нашего сайта на поддомене ( dev.oursite.com) и robots.txt с Disallowзаменой в какой-то момент, поэтому сайт был проиндексирован Google и другими поисковыми системами. Он не показывает высокие результаты или что-то в этом роде, но в нем есть все дублирующее содержание, и я бы предпочел, чтобы его там не было.

Субдомен теперь отсутствует, и у меня есть 301, который перенаправляет каждую страницу с dev.oursite.com/page-nameна http://oursite.com/page-name.

Что еще нужно сделать, чтобы удалить сайт разработчиков из Google? Это исчезнет само по себе в конце концов?

рукав моря
источник
4
У Google есть полезная страница
часто задаваемых вопросов

Ответы:

7

Проверьте инструмент для удаления URL в Google Webmaster Tools. Я бы также 404 страниц вместо перенаправления их, чтобы удалить их быстрее, в будущем, за исключением robots.txt, вы можете зайти в, rel="canonical"чтобы убедиться, что Google знает, что сайт разработчика является просто копией основного сайта и не должен быть индексируются.

Joshak
источник
3

Я всегда обеспокоен тем, что разработка сайтов будет проиндексирована. Я не доверяю robots.txt или meta noindex, хотя я их использую, я также защищаю паролем сайты, если это не слишком неудобно. Но другой вариант - использовать .htaccess и запретить доступ всем, кроме IP-адресов в вашей компании, а также коллегам и разработчикам. Просто добавьте их класс C.

Anagio
источник
1
Это лучший способ. 403 каждый, кроме серии адресов или адресных блоков. Остальной мир уходит, и только те, кому нужно это увидеть, могут. По факту на этот вопрос, но полезно знать на будущее. Вам может понадобиться доступный для личного пользования сайт разработчика даже после запуска для испытаний на обновление, пользовательского программирования от сторонних разработчиков и т. Д.
Fiasco Labs
1

В дополнение к правильному ответу, предоставленному Джошаком, я хотел бы дать вам совет о том, как это можно предотвратить.

Что я сделал, чтобы решить ту же самую проблему, так это заставить файл robot.txt в определении vhost Apache httpd. Таким образом, «запрет» не может исчезнуть или быть изменен каким-либо кодом на разрабатываемом веб-сайте. Мои определения vhost выглядят примерно так:

<VirtualHost *:80>
    DocumentRoot /var/www/html/Hosting/test.example.com/newsite.com
    ServerName newsite.com.test.example.com
    ServerAlias *.newsite.com.test.example.com
    UseCanonicalName on
    RewriteEngine on
    RewriteRule ^/robots.txt /var/www/no-indexing-robots.txt [NC,L]
</VirtualHost>
Нильс Бажес
источник