У меня есть подкаталог, который я хотел бы скрыть от поисковых роботов поисковых систем.
Один из способов сделать это - использовать robots.txt
в корневом каталоге сервера (стандартный способ). Однако любой, кто знает URL-адрес веб-сайта и имеет некоторые базовые знания в Интернете, может получить доступ к содержимому robots.txt и определить запрещенные каталоги.
Я думал, как избежать этого, но я не уверен, сработает ли.
Позвольте X
быть именем подкаталога, который я хочу исключить. Один из способов , чтобы остановить веб - Ползуны индексации X
каталога и в то же самое время , чтобы сделать более трудным для кого - то , чтобы определить X
каталог из корневого robots.txt
, чтобы добавить robots.txt
в X
каталог вместо корневого каталога.
Если я последую этому решению, у меня возникнут следующие вопросы:
- Найдут ли веб-сканеры
robots.txt
в подкаталоге? (учитывая, чтоrobots.txt
уже существует и в корневом каталоге) Если
robots.txt
находится вX
подкаталоге, то я должен использовать относительные или абсолютные пути ?:User-agent: * Disallow: /X/
или
User-agent: * Disallow: /
источник
Ответы:
Нет, веб-сканеры не будут читать или выполнять файл robots.txt в подкаталоге. Как описано на квази-официальном сайте robotstxt.org :
или на страницах справки Google ( выделено мое):
В любом случае, использование robots.txt для скрытия конфиденциальных страниц от результатов поиска в любом случае является плохой идеей, поскольку поисковые системы могут индексировать запрещенные страницы в robots.txt, если другие страницы ссылаются на них. Или, как описано на странице справки Google, ссылка на которую приведена выше:
Так что вы должны сделать вместо этого?
Вы можете разрешить поисковым системам сканировать страницы (если они их найдут), но включить метатег роботов с контентом
noindex,nofollow
. Это скажет поисковым системам не индексировать эти страницы, даже если они найдут ссылки на них, и не переходить по каким-либо дальнейшим ссылкам с этих страниц. (Конечно, это будет работать только для веб-страниц HTML.)Для ресурсов, отличных от HTML, вы можете настроить свой веб-сервер (например, с помощью
.htaccess
файла) на отправку HTTP-заголовка X-Robots-Tag с тем же содержимым.Вы можете настроить аутентификацию по паролю для защиты конфиденциальных страниц. Помимо защиты страниц от посторонних посетителей, это также эффективно защитит веб-сканеры.
источник
Вы
robots.txt
должны быть в корневом каталоге и не должны иметь другого имени. Согласно стандартной спецификации :источник
/robots.txt
это стандарт, так как же поисковые системы будут знать, где искать иначе?Вы МОЖЕТЕ фактически использовать robots.txt в подкаталоге. В настоящее время мы так относимся к нашим языковым поддоменам. Мы используем переадресацию 301 из /robots.txt в /lang/robots.txt (для каждого поддомена), и он правильно подобран.
Он также выбирает структуру папок как правильный корень при использовании простой косой черты. например. запретить: /
рассматривается как запрещающий все, а не только текущий подкаталог, в котором находится файл {redirected} robots.txt.
Но опять же, мы перенаправляем с 301 и имеем это на месте, поэтому без 301, я сомневаюсь, что это когда-либо будет найдено ...
источник