Таким образом, на всех наших сайтах, которые не являются поисковыми, мы применили файл robots.txt (см. Как исключить веб-сайт из результатов поиска Google в режиме реального времени? Или любой другой подобный вопрос).
Однако, если условия поиска достаточно конкретны, сам домен можно найти по результатам. Пример этого можно найти здесь . Как видно из ссылки, сам домен можно найти (контент не кэшируется, но домен указан в списке). Дополнительно, выполняя поиск с site:hyundaidigitalmarketing.com
3 результатами. Проверка обратных ссылок также предоставляет некоторые возможности, но я, очевидно, не могу предотвратить их (связывание разрешено в контексте) или контролировать, как они обрабатываются (не могу сказать хосту добавить nofollow, noindex).
Теперь я знаю, что это серьезный крайний случай, однако клиенты моих компаний делают именно это. На самом деле, наши домены довольно хороши, поэтому даже, казалось бы, произвольный поиск дает релевантные результаты Теперь я должен написать отчет о том, как / почему это происходит.
Итак, я обращаюсь к замечательной сети Stack Exchange, чтобы помочь мне понять, чего мне не хватает, или понять, что происходит. Ссылки на отраслевые статьи чрезвычайно полезны, но все, что вы можете дать, очевидно, прекрасно. Я намерен предложить награды как можно лучше, чтобы сделать это ответом, к которому можно обратиться в будущем.
Изменить: я открыл щедрость на этот вопрос в надежде получить еще несколько ответов на него. Я также предоставил результаты своего собственного исследования ниже.
источник
Я думаю, что Мэтт Каттс говорил об этом. Если моя память верна, это было связано со ссылками. Вот еще: http://www.google.com/support/forum/p/Webmasters/thread?tid=2720810fa226e9c8&hl=en
Вы можете удалить их с помощью инструмента удаления Google.
источник
noindex, follow
чтобы любой PageRank распространялся из обратных ссылок, которые могут возникнуть.site:hyundaidigitalmarketing.com
или для условийhyundai digital marketing
, сам домен по-прежнему будет отображаться как первый и лучший результат. Я должен предотвратить это.links:hyundaidigitalmarketing.com
показывает обратные ссылки. Я, очевидно, не могу предотвратить или контролировать обратные ссылки форматирования И они могут быть действительными. Если ссылка на сайт приводит к этому, мне нужно понять, как и почему, чтобы объяснить это начальству. Я надеюсь, что это объясняет мой вопрос немного лучше.Основываясь на своих исследованиях по этому вопросу, я обнаружил, что не существует 100% -го гарантированного способа предотвращения индексации и кэширования данных, но вы можете подойти довольно близко (если предположить, что вы хотите справиться с увеличением трафика ботов). Вот как я интерпретировал информацию.
Можно было бы подумать, что файл robots.txt используется для определения информации о роботах по всему сайту, а мета-теги используются для деталей конкретной страницы. Я думаю, что дух, стоящий за этими двумя, именно такой, но на практике это не так.
Не создавайте файл robots.txt
Это работает со всеми основными поставщиками поиска , чтобы предотвратить содержание появляться на SERP, но никак не предотвратить индексацию. Это также не позволяет роботам сканировать ваши страницы, поэтому любые метатеги роботов (см. Ниже) также игнорируются. Из-за этого вы не можете использовать 2 вместе, и поэтому, если вы хотите предотвратить индексирование, вы не должны использовать файл robots.txt.
Примечание: Google поддерживает использование
Noindex: /
файла robots.txt, но он недокументирован (кто знает, когда он сломается) и неизвестно, работает ли это для кого-то еще.Используйте заголовки HTTP или теги HTML META, чтобы предотвратить все
В отличие от файла robots.txt, метатег robots (и HTTP-заголовок) широко поддерживается и, что удивительно, имеет множество функций. Он предназначен для установки на каждой странице, но недавнее использование
X-Robots-Tag
заголовка облегчает настройку для всего сайта. Единственным недостатком этого метода является то, что боты будут сканировать ваш сайт. Это может быть ограничено использованиемnofollow
, но не все боты искренне уважаютnofollow
.Я нашел тонну информации в этом устаревшем сообщении в блоге . Первоначальный выпуск был в 2007 году, но, поскольку большая часть информации о нем является более новой, с тех пор она регулярно обновляется.
Таким образом, вы должны отправить HTTP-заголовок
X-Robots-Tag: noindex,nofollow,noodp,noydir
. Вот разбивка почему:nofollow
должно ограничивать количество страниц, просматриваемых на вашем сайте, что снижает трафик ботов. *noindex
говорит движкам не индексировать страницу.noindex
может быть достаточно. Однако я обнаружил, что даже если вы скажете, чтоnoindex
ваш сайт может быть проиндексирован из-за других сайтов, ссылающихся на него. Лучший способ предотвратить общедоступные ссылки на сайт от Y! Каталог (noydir
) и Открытый каталог (noodp
).Это будет работать в 99% случаев. Имейте в виду, что некоторые провайдеры все еще могут проиндексироваться. Google утверждает, что полностью уважает
noindex
, но у меня есть свои подозрения.Наконец, если вы действительно проиндексированы или уже проиндексированы, единственный способ деиндексировать вашу информацию - это следовать различным средствам каждого провайдера, чтобы запросить удаление сайта / URL. Очевидно, это означает, что вы, вероятно, захотите отслеживать сайты / страницы, используя что-то вроде Google Alerts (спасибо @Joe).
источник
Я думаю, что ваша основная проблема - обратные ссылки на сайт, поскольку они дают поисковым системам точку входа на сайт и информируют их об этом. Поэтому, хотя они не будут отображать описание сайта, они могут показать URL-адрес, если они считают, что он наилучшим образом соответствует результату.
Прочитайте эту статью, на которую ссылается один из опубликованных @joe: Мэтт Каттс не пускает Google
Ключевой бит:
Исследование, которое вы провели, также неплохо охватывает вопросы, и ответы @john и @joe актуальны. Я включил ссылку ниже, которая дает некоторые дополнительные рекомендации по блокировке поисковых систем. Единственный способ полностью заблокировать сайт - добавить некоторую форму защиты паролем перед сайтом, которую необходимо заполнить перед отображением контента.
SEOMoz советы о том, чтобы не появляться в поиске
источник