Как остановить индексирование определенных URL

8

Когда я печатаю site:example.com(очевидно, используя свой домен), я получаю несколько ошибок в ссылках, которые отображаются в списке. Как правило, они имеют вид:/some/fixed/path/admin/unblockUser/11

Я подумываю добавить следующую строку в мой robots.txtфайл:

Disallow: /some/fixed/path/admin/*
Саймон Хейтер
источник

Ответы:

18

Есть 2 основных способа запретить поисковым системам индексировать определенные страницы :

  1. Файл Robots.txt для вашего домена.
  2. Тэги Meta Robots на каждой странице.

Robots.txt должен быть вашей первой остановкой для шаблонов URL, которые соответствуют нескольким файлам. Вы можете увидеть синтаксис здесь и более подробно здесь . Файл robots.txt должен быть помещен в корневую папку вашего домена, то есть в http://www.yourdomain.com/robots.txt, и он будет содержать что-то вроде:

User-agent: *
Disallow: /path/with-trailing-slash/

(Окрашивание текста выше выполняется программным обеспечением Stackexchange и должно игнорироваться.)

Тег Meta Robots является более гибким и способным , но его необходимо вставить на каждую страницу, на которую вы хотите повлиять.

Опять же, у Google есть обзор того, как использовать мета-роботов и как удалять страницы из их индекса с помощью Инструментов для веб-мастеров. В Википедии есть более исчерпывающая документация по мета-роботам , включая специфические для поисковых систем.

Если вы хотите запретить Google, Веб-архиву и другим поисковым системам сохранять копию вашей веб-страницы, вам нужен следующий тег (показанный в формате HTML4):

<meta name="robots" content="noarchive">

Чтобы предотвратить индексацию и хранение копии :

<meta name="robots" content="noindex, noarchive">

И чтобы предотвратить оба вышеперечисленных , а также использование ссылок на странице, чтобы найти больше страниц для индексации:

<meta name="robots" content="noindex, nofollow, noarchive">

NB 1: все 3 приведенных выше метатега предназначены только для поисковых систем - они не влияют на HTTP прокси или браузеры.

NB 2: Если у вас уже есть проиндексированные и заархивированные страницы, и вы блокируете страницы через robots.txt, одновременно добавляя метатег на те же страницы, тогда robots.txt не позволит поисковым системам видеть обновленный метатег.

Джеспер М
источник
1
Downvoted? С какой стати это было отвергнуто? Пожалуйста, оставьте комментарий, если вы проголосовали против, так что ответ может быть улучшен.
Jesper M
@Jesper Mortensen Ваш первоначальный ответ вообще не касался вопроса о кешировании. Ваша редакция исправила это и сделала информацию noindex намного лучше. +1 сейчас ;-)
mawtex
1
Следует иметь в виду, что директива запрета robots.txt не запрещает индексирование URL-адреса и не приводит к удалению этого URL-адреса из индекса. Поисковые системы могут и будут индексировать URL-адреса, не просматривая их (если они запрещены), поэтому, если критически важно предотвратить индексацию URL-адресов (а не просто запретить индексацию содержимого), необходимо использовать метатег robots или x -robots-tag HTTP заголовок и убедитесь, что URL не запрещены для сканирования.
Джон Мюллер
1
Кроме того, хотя метатег роботов с «noindex, noarchive» и не обязательно является неправильным, он эквивалентен «noindex» (если URL не проиндексирован, он также не архивируется и не кэшируется).
Джон Мюллер
1
Наконец (извините за добавление такого количества комментариев :-)), в данном конкретном случае (страницы администратора), я бы просто удостоверился, что URL-адреса возвращают 403, когда не вошли в систему. Это также препятствует индексации поисковыми системами и теоретически понятнее. чем возвращение страницы 200+ с использованием метатега noindex robots. Конечный результат такой же, как и в результатах поиска, но использование правильного HTTP-кода результата может помочь вам легче распознать несанкционированный доступ администратора в журналах.
Джон Мюллер
5

На самом деле существует третий способ запретить Google и другим поисковым системам индексировать URL-адреса. Это X-Robots-Tagзаголовок ответа HTTP . Это лучше, чем мета-теги, потому что он работает для всех документов, и вы можете иметь более одного тега.

Теги REP META дают вам полезный контроль над индексацией каждой веб-страницы на вашем сайте. Но это работает только для HTML-страниц. Как вы можете контролировать доступ к другим типам документов, таким как файлы Adobe PDF, видео и аудио файлы и другие типы? Что ж, теперь такая же гибкость для указания тегов для каждого URL доступна для всех других типов файлов.

Мы расширили нашу поддержку мета-тегов, чтобы они теперь могли быть связаны с любым файлом. Просто добавьте любой поддерживаемый тег META в новую директиву X-Robots-Tag в заголовке HTTP, используемом для обслуживания файла. Вот несколько иллюстративных примеров: Не отображать ссылку на кэш или фрагмент этого элемента в результатах поиска Google: X-Robots-Tag: noarchive, nosnippet Не включать этот документ в результаты поиска Google: X-Robots-Tag : noindex Сообщите нам, что документ будет недоступен после 7 июля 2007 г., 16:30 по Гринвичу: X-Robots-Tag: unavailable_after: 7 июля 2007 г. 16:30:00 по Гринвичу

Вы можете объединить несколько директив в одном документе. Например: не показывать кэшированную ссылку для этого документа и удалить ее из индекса после 23 июля 2007 г., 15:00. PST: X-Robots-Tag: noarchive X-Robots-Tag: unavailable_after: 23 июля 2007 15:00:00 Тихоокеанское стандартное время

Джон Конде
источник
Ссылка 'X-Robots_tag header' не работает.
mawtex
Спасибо за внимание. В Chrome, похоже, есть проблемы с панелью инструментов форматирования, и он добавил дополнительный текст в ссылку.
Джон Конде
1

Да, это решит проблему. Чтобы содержимое не отображалось в индексах Googles, вы можете использовать robots.txt или метатег html.

<meta name="robots" content="noindex, nofollow" />

В следующий раз, когда ваш сайт будет проиндексирован, ваш контент будет исключен из индекса Google.

Вы также можете указать noarchiveзначение - это заблокирует кеширование вашей страницы. Это специфично для Google:

<meta name="robots" content="noarchive" />

Вы можете использовать «инструмент для удаления» в Googles Webmaster Tools, чтобы запросить срочное удаление вашего контента. Обратите внимание, что вы должны сначала заблокировать индексацию вашего контента (используя либо robots.txt, либо тег meta robots).

Больше информации:

mawtex
источник
1

Если ваша цель состоит в том, чтобы эти страницы не были видны широкой публике, лучше всего поставить пароль на этот набор страниц. И / или иметь некоторую конфигурацию, которая позволяет только определенным, занесенным в белый список адресам, иметь доступ к сайту (это можно сделать на уровне сервера, вероятно, через администратора вашего хоста или сервера).

Если ваша цель состоит в том, чтобы эти страницы существовали, но не были проиндексированы Google или другими поисковыми системами, как уже упоминали другие, у вас есть несколько вариантов, но я думаю, что важно различать две основные функции поиска Google в этом смысл: ползать и индексировать.

Сканирование и индексирование

Google сканирует ваш сайт, Google индексирует ваш сайт. Сканеры находят страницы вашего сайта, индексация организует страницы вашего сайта. Больше информации об этом немного здесь .

Это различие важно при попытке заблокировать или удалить страницы из «Индекса» Google. Многие люди по умолчанию просто блокируют через robots.txt, который указывает Google, что (или что нет) сканировать. Часто предполагается, что если Google не сканирует ваш сайт, вряд ли он будет проиндексирован. Однако очень часто можно увидеть страницы, заблокированные файлом robots.txt, проиндексированные в Google.


Директивы для Google и поисковых систем

Этот тип «директив» является просто рекомендацией для Google, по какой части вашего сайта сканировать и индексировать. Они не обязаны следовать за ними. Это важно знать. Я видел, как многие разработчики за эти годы думали, что они могут просто заблокировать сайт через robots.txt, и внезапно сайт индексируется в Google несколько недель спустя. Если кто-то ссылается на сайт или один из сканеров Google каким-то образом его захватывает, он все равно может быть проиндексирован .

Недавно на обновленной панели мониторинга GSC (Google Search Console) этот отчет получил название «Отчет об охвате индекса». Веб-мастерам доступны новые данные, ранее недоступные напрямую, а также конкретные сведения о том, как Google обрабатывает определенный набор страниц. Я видел и слышал о многих веб-сайтах, получающих «Предупреждения», помеченные как «проиндексированные, но заблокированные Robots.txt».

В последней документации Google упоминается, что если вы хотите, чтобы страницы отсутствовали в индексе, добавьте в него теги noindex nofollow.


Инструмент удаления URL

Просто для того, чтобы опираться на то, что некоторые другие упоминали об «инструменте удаления URL»

Если страницы уже проиндексированы, и необходимо срочно их получить, Google «Инструмент удаления URL-адресов» позволит вам «временно» заблокировать страницы из результатов поиска. Запрос длится 90 дней, но я использовал его для более быстрого удаления страниц из Google, чем с использованием noindex, nofollow, вроде дополнительного слоя.

Используя инструмент «Удалить URL-адреса», Google по-прежнему будет сканировать страницу и, возможно, кэшировать ее, но пока вы используете эту функцию, вы можете добавить теги noindex nofollow, чтобы они их видели, и к тому времени, когда 90 дней будут надеюсь, он узнает, что не будет больше проиндексировать вашу страницу.


ВАЖНО! Использование тегов robots.txt и noindex nofollow является несколько противоречивым сигналом для Google.

Причина в том, что если вы скажете Google не сканировать страницу, и на этой странице появится noindex nofollow, он может не сканировать, чтобы увидеть тег noindex nofollow. Затем его можно проиндексировать каким-либо другим способом (будь то ссылка или еще что-нибудь). Детали того, почему это происходит, довольно расплывчаты, но я видел, как это произошло.


Короче говоря, на мой взгляд, лучший способ остановить индексацию определенных URL-адресов - это добавить на эти страницы тег noindex nofollow. При этом убедитесь, что вы не блокируете эти URL-адреса также с помощью robots.txt, поскольку это может помешать Google правильно видеть эти теги. Вы можете использовать инструмент удаления URL-адресов из инструмента Google, чтобы временно скрыть их от результатов поиска, пока Google обрабатывает ваш noindex nofollow.

проснулся зомби
источник