Роботы, запрещенные доменом, все еще перечислены в результатах поиска.

9

Таким образом, на всех наших сайтах, которые не являются поисковыми, мы применили файл robots.txt (см. Как исключить веб-сайт из результатов поиска Google в режиме реального времени? Или любой другой подобный вопрос).

Однако, если условия поиска достаточно конкретны, сам домен можно найти по результатам. Пример этого можно найти здесь . Как видно из ссылки, сам домен можно найти (контент не кэшируется, но домен указан в списке). Дополнительно, выполняя поиск с site:hyundaidigitalmarketing.com3 результатами. Проверка обратных ссылок также предоставляет некоторые возможности, но я, очевидно, не могу предотвратить их (связывание разрешено в контексте) или контролировать, как они обрабатываются (не могу сказать хосту добавить nofollow, noindex).

Теперь я знаю, что это серьезный крайний случай, однако клиенты моих компаний делают именно это. На самом деле, наши домены довольно хороши, поэтому даже, казалось бы, произвольный поиск дает релевантные результаты Теперь я должен написать отчет о том, как / почему это происходит.

Итак, я обращаюсь к замечательной сети Stack Exchange, чтобы помочь мне понять, чего мне не хватает, или понять, что происходит. Ссылки на отраслевые статьи чрезвычайно полезны, но все, что вы можете дать, очевидно, прекрасно. Я намерен предложить награды как можно лучше, чтобы сделать это ответом, к которому можно обратиться в будущем.

Изменить: я открыл щедрость на этот вопрос в надежде получить еще несколько ответов на него. Я также предоставил результаты своего собственного исследования ниже.

Кевин Пено
источник

Ответы:

5

Мне придется искать источник этой информации, но, очевидно, robots.txt не обязательно будет препятствовать индексации страницы. Но HTTP-заголовок x-robots-tag, очевидно, работает.

Если вы используете Apache, вы можете массово блокировать страницы, используя эту строку в файле .htaccess:

Header set x-robots-tag: noindex

Попробуйте и посмотрите, что получится.

редактировать

(Нашел источник . Не тот, который я помню, но он работает).

Джон Конде
источник
Здравствуйте, и спасибо за ответ. Чем это отличается от метатега robots, уже реализованного в выводе html сайта, использованного в качестве примера выше? Насколько я могу судить, это просто замена, поэтому вам не нужно помещать его на каждой странице.
Кевин Пено
@Kevin, они должны быть одинаковыми с точки зрения эффективности. Это было бы проще, как ты сказал.
Джон Конде
4

Я думаю, что Мэтт Каттс говорил об этом. Если моя память верна, это было связано со ссылками. Вот еще: http://www.google.com/support/forum/p/Webmasters/thread?tid=2720810fa226e9c8&hl=en

Вы можете удалить их с помощью инструмента удаления Google.

Джо
источник
Вы можете увидеть их все с помощью: site: gmpackageguide.com URL-адресов не так много. Я предполагаю, что они были в индексе прежде, чем роботы были запрещены. Я бы просто удалил их.
Джо
В будущем я бы порекомендовал людям, занимающимся веб-дизайном, всегда указывать отсутствие указателей и подписок в разделе заголовка веб-страницы. Я подозреваю, что CMS, которую вы используете, может это сделать.
Джо
@Joe - согласен, но рекомендовал бы, noindex, followчтобы любой PageRank распространялся из обратных ссылок, которые могут возникнуть.
Майк Хадсон
@Joe & @Mike, спасибо за информацию. Однако зайдите на сайт: hyundaidigitalmarketing.com. Я сам запустил этот сайт год назад. Он включает в себя как файл robots.txt, так и мета-заголовок. Однако, как вы можете видеть в форме, выполняющей поиск в Google с использованием site:hyundaidigitalmarketing.comили для условий hyundai digital marketing, сам домен по-прежнему будет отображаться как первый и лучший результат. Я должен предотвратить это.
Кевин Пено
Кроме того, поиск links:hyundaidigitalmarketing.comпоказывает обратные ссылки. Я, очевидно, не могу предотвратить или контролировать обратные ссылки форматирования И они могут быть действительными. Если ссылка на сайт приводит к этому, мне нужно понять, как и почему, чтобы объяснить это начальству. Я надеюсь, что это объясняет мой вопрос немного лучше.
Кевин Пено
3

Основываясь на своих исследованиях по этому вопросу, я обнаружил, что не существует 100% -го гарантированного способа предотвращения индексации и кэширования данных, но вы можете подойти довольно близко (если предположить, что вы хотите справиться с увеличением трафика ботов). Вот как я интерпретировал информацию.

Можно было бы подумать, что файл robots.txt используется для определения информации о роботах по всему сайту, а мета-теги используются для деталей конкретной страницы. Я думаю, что дух, стоящий за этими двумя, именно такой, но на практике это не так.

Не создавайте файл robots.txt

Это работает со всеми основными поставщиками поиска , чтобы предотвратить содержание появляться на SERP, но никак не предотвратить индексацию. Это также не позволяет роботам сканировать ваши страницы, поэтому любые метатеги роботов (см. Ниже) также игнорируются. Из-за этого вы не можете использовать 2 вместе, и поэтому, если вы хотите предотвратить индексирование, вы не должны использовать файл robots.txt.

Примечание: Google поддерживает использование Noindex: /файла robots.txt, но он недокументирован (кто знает, когда он сломается) и неизвестно, работает ли это для кого-то еще.

Используйте заголовки HTTP или теги HTML META, чтобы предотвратить все

В отличие от файла robots.txt, метатег robots (и HTTP-заголовок) широко поддерживается и, что удивительно, имеет множество функций. Он предназначен для установки на каждой странице, но недавнее использование X-Robots-Tagзаголовка облегчает настройку для всего сайта. Единственным недостатком этого метода является то, что боты будут сканировать ваш сайт. Это может быть ограничено использованием nofollow, но не все боты искренне уважают nofollow.

Я нашел тонну информации в этом устаревшем сообщении в блоге . Первоначальный выпуск был в 2007 году, но, поскольку большая часть информации о нем является более новой, с тех пор она регулярно обновляется.

Таким образом, вы должны отправить HTTP-заголовок X-Robots-Tag: noindex,nofollow,noodp,noydir. Вот разбивка почему:

  • nofollowдолжно ограничивать количество страниц, просматриваемых на вашем сайте, что снижает трафик ботов. * noindexговорит движкам не индексировать страницу.
  • Теперь вы можете предположить, что этого noindexможет быть достаточно. Однако я обнаружил, что даже если вы скажете, что noindexваш сайт может быть проиндексирован из-за других сайтов, ссылающихся на него. Лучший способ предотвратить общедоступные ссылки на сайт от Y! Каталог ( noydir) и Открытый каталог ( noodp).
  • Использование заголовка HTTP также применяет данные роботов к файлам, изображениям и другим файлам, отличным от HTML! УРА!

Это будет работать в 99% случаев. Имейте в виду, что некоторые провайдеры все еще могут проиндексироваться. Google утверждает, что полностью уважает noindex, но у меня есть свои подозрения.

Наконец, если вы действительно проиндексированы или уже проиндексированы, единственный способ деиндексировать вашу информацию - это следовать различным средствам каждого провайдера, чтобы запросить удаление сайта / URL. Очевидно, это означает, что вы, вероятно, захотите отслеживать сайты / страницы, используя что-то вроде Google Alerts (спасибо @Joe).

Кевин Пено
источник
3

Я думаю, что ваша основная проблема - обратные ссылки на сайт, поскольку они дают поисковым системам точку входа на сайт и информируют их об этом. Поэтому, хотя они не будут отображать описание сайта, они могут показать URL-адрес, если они считают, что он наилучшим образом соответствует результату.

Прочитайте эту статью, на которую ссылается один из опубликованных @joe: Мэтт Каттс не пускает Google

Ключевой бит:

Для этого есть довольно веская причина: когда я начал работать в Google в 2000 году, на нескольких полезных веб-сайтах (eBay, New York Times, California DMV) были файлы robots.txt, которые запрещали какие-либо выборки страниц. Теперь я спрашиваю вас, что мы должны возвращать в качестве результата поиска, когда кто-то выполняет запрос [california dmv]? Мы бы выглядели довольно грустно, если бы не вернули www.dmv.ca.gov в качестве первого результата. Но помните: в этот момент нам не разрешали получать страницы с сайта www.dmv.ca.gov. Решение состояло в том, чтобы показать нераскрытую ссылку, когда у нас был высокий уровень уверенности в том, что это правильная ссылка. Иногда мы могли даже извлечь описание из Open Directory Project, чтобы мы могли дать много информации пользователям, даже не загружая страницу.

Исследование, которое вы провели, также неплохо охватывает вопросы, и ответы @john и @joe актуальны. Я включил ссылку ниже, которая дает некоторые дополнительные рекомендации по блокировке поисковых систем. Единственный способ полностью заблокировать сайт - добавить некоторую форму защиты паролем перед сайтом, которую необходимо заполнить перед отображением контента.

SEOMoz советы о том, чтобы не появляться в поиске

Мэтью Брукс
источник
Спасибо за добавление к обсуждению. Защита паролем работает хорошо для предотвращения сканирования, но не препятствует индексации. Поскольку robots.txt хорошо справляется с этой задачей, единственным преимуществом защиты паролем является то, что он не даст посторонним глазам найти его. К сожалению, большая часть контента недостаточно чувствительна, чтобы быть «защищенной», и, конечно, не устраняет проблем с юзабилити, которые она создает. [продолжение ...]
Кевин Пено
Одна из аналогий, которую я нашел наиболее полезной в своем исследовании, - это сравнение с телефонными книгами. Если поисковые системы - это телефонные книги, и вы просите не указывать их в списке, то вы можете попросить не указывать их в списке, и они должны уважать это. К сожалению, поисковые системы действуют более похоже на компании, которым продают контакты другие компании, которые в свою очередь предоставляются всем, кто готов заплатить / попросить за это.
Кевин Пено
@Kevin Я понимаю, что вы говорите, к сожалению, я не думаю, что будет возможно полностью удалить то, как работают поисковые системы в настоящее время, лучшее, на что вы можете надеяться, это просто листинг URL в этом случае.
Мэтью Брукс
О, я понимаю это сейчас (после исследования). Также, пожалуйста, не принимайте мой комментарий к вашему ответу в любом негативном свете. Я оцениваю ваше добавление к теме, я просто отвечал, чтобы добавить минусы в реализации такого решения, а также добавить немного постороннего подшучивания, я полагаю. : P
Кевин Пено