Есть 2 основных способа запретить поисковым системам индексировать определенные страницы :
- Файл Robots.txt для вашего домена.
- Тэги Meta Robots на каждой странице.
Robots.txt должен быть вашей первой остановкой для шаблонов URL, которые соответствуют нескольким файлам. Вы можете увидеть синтаксис здесь и более подробно здесь . Файл robots.txt должен быть помещен в корневую папку вашего домена, то есть в http://www.yourdomain.com/robots.txt
, и он будет содержать что-то вроде:
User-agent: *
Disallow: /path/with-trailing-slash/
(Окрашивание текста выше выполняется программным обеспечением Stackexchange и должно игнорироваться.)
Тег Meta Robots является более гибким и способным , но его необходимо вставить на каждую страницу, на которую вы хотите повлиять.
Опять же, у Google есть обзор того, как использовать мета-роботов и как удалять страницы из их индекса с помощью Инструментов для веб-мастеров. В Википедии есть более исчерпывающая документация по мета-роботам , включая специфические для поисковых систем.
Если вы хотите запретить Google, Веб-архиву и другим поисковым системам сохранять копию вашей веб-страницы, вам нужен следующий тег (показанный в формате HTML4):
<meta name="robots" content="noarchive">
Чтобы предотвратить индексацию и хранение копии :
<meta name="robots" content="noindex, noarchive">
И чтобы предотвратить оба вышеперечисленных , а также использование ссылок на странице, чтобы найти больше страниц для индексации:
<meta name="robots" content="noindex, nofollow, noarchive">
NB 1: все 3 приведенных выше метатега предназначены только для поисковых систем - они не влияют на HTTP прокси или браузеры.
NB 2: Если у вас уже есть проиндексированные и заархивированные страницы, и вы блокируете страницы через robots.txt, одновременно добавляя метатег на те же страницы, тогда robots.txt не позволит поисковым системам видеть обновленный метатег.
На самом деле существует третий способ запретить Google и другим поисковым системам индексировать URL-адреса. Это
X-Robots-Tag
заголовок ответа HTTP . Это лучше, чем мета-теги, потому что он работает для всех документов, и вы можете иметь более одного тега.источник
Да, это решит проблему. Чтобы содержимое не отображалось в индексах Googles, вы можете использовать robots.txt или метатег html.
В следующий раз, когда ваш сайт будет проиндексирован, ваш контент будет исключен из индекса Google.
Вы также можете указать
noarchive
значение - это заблокирует кеширование вашей страницы. Это специфично для Google:Вы можете использовать «инструмент для удаления» в Googles Webmaster Tools, чтобы запросить срочное удаление вашего контента. Обратите внимание, что вы должны сначала заблокировать индексацию вашего контента (используя либо robots.txt, либо тег meta robots).
Больше информации:
источник
Если ваша цель состоит в том, чтобы эти страницы не были видны широкой публике, лучше всего поставить пароль на этот набор страниц. И / или иметь некоторую конфигурацию, которая позволяет только определенным, занесенным в белый список адресам, иметь доступ к сайту (это можно сделать на уровне сервера, вероятно, через администратора вашего хоста или сервера).
Если ваша цель состоит в том, чтобы эти страницы существовали, но не были проиндексированы Google или другими поисковыми системами, как уже упоминали другие, у вас есть несколько вариантов, но я думаю, что важно различать две основные функции поиска Google в этом смысл: ползать и индексировать.
Сканирование и индексирование
Google сканирует ваш сайт, Google индексирует ваш сайт. Сканеры находят страницы вашего сайта, индексация организует страницы вашего сайта. Больше информации об этом немного здесь .
Это различие важно при попытке заблокировать или удалить страницы из «Индекса» Google. Многие люди по умолчанию просто блокируют через robots.txt, который указывает Google, что (или что нет) сканировать. Часто предполагается, что если Google не сканирует ваш сайт, вряд ли он будет проиндексирован. Однако очень часто можно увидеть страницы, заблокированные файлом robots.txt, проиндексированные в Google.
Директивы для Google и поисковых систем
Этот тип «директив» является просто рекомендацией для Google, по какой части вашего сайта сканировать и индексировать. Они не обязаны следовать за ними. Это важно знать. Я видел, как многие разработчики за эти годы думали, что они могут просто заблокировать сайт через robots.txt, и внезапно сайт индексируется в Google несколько недель спустя. Если кто-то ссылается на сайт или один из сканеров Google каким-то образом его захватывает, он все равно может быть проиндексирован .
Недавно на обновленной панели мониторинга GSC (Google Search Console) этот отчет получил название «Отчет об охвате индекса». Веб-мастерам доступны новые данные, ранее недоступные напрямую, а также конкретные сведения о том, как Google обрабатывает определенный набор страниц. Я видел и слышал о многих веб-сайтах, получающих «Предупреждения», помеченные как «проиндексированные, но заблокированные Robots.txt».
В последней документации Google упоминается, что если вы хотите, чтобы страницы отсутствовали в индексе, добавьте в него теги noindex nofollow.
Инструмент удаления URL
Просто для того, чтобы опираться на то, что некоторые другие упоминали об «инструменте удаления URL»
Если страницы уже проиндексированы, и необходимо срочно их получить, Google «Инструмент удаления URL-адресов» позволит вам «временно» заблокировать страницы из результатов поиска. Запрос длится 90 дней, но я использовал его для более быстрого удаления страниц из Google, чем с использованием noindex, nofollow, вроде дополнительного слоя.
Используя инструмент «Удалить URL-адреса», Google по-прежнему будет сканировать страницу и, возможно, кэшировать ее, но пока вы используете эту функцию, вы можете добавить теги noindex nofollow, чтобы они их видели, и к тому времени, когда 90 дней будут надеюсь, он узнает, что не будет больше проиндексировать вашу страницу.
ВАЖНО! Использование тегов robots.txt и noindex nofollow является несколько противоречивым сигналом для Google.
Причина в том, что если вы скажете Google не сканировать страницу, и на этой странице появится noindex nofollow, он может не сканировать, чтобы увидеть тег noindex nofollow. Затем его можно проиндексировать каким-либо другим способом (будь то ссылка или еще что-нибудь). Детали того, почему это происходит, довольно расплывчаты, но я видел, как это произошло.
Короче говоря, на мой взгляд, лучший способ остановить индексацию определенных URL-адресов - это добавить на эти страницы тег noindex nofollow. При этом убедитесь, что вы не блокируете эти URL-адреса также с помощью robots.txt, поскольку это может помешать Google правильно видеть эти теги. Вы можете использовать инструмент удаления URL-адресов из инструмента Google, чтобы временно скрыть их от результатов поиска, пока Google обрабатывает ваш noindex nofollow.
источник