Вопросы с тегом «robots.txt»

Robots.txt - это текстовый файл, используемый владельцами веб-сайтов для предоставления инструкций об их сайте веб-роботам. В основном это говорит роботам, какие части сайта открыты, а какие закрыты. Это называется протоколом исключения роботов.

36
Файлы, которые я должен иметь на каждом сайте

Я хотел бы иметь список файлов, которые должны существовать на каждом сайте. Идея состоит в том, чтобы порадовать большинство браузеров и ботов и получить количество 404 сообщений в журналах. Пока у меня есть следующие файлы: /favicon.ico /robots.txt /sitemap.xml...

28
Есть ли разница между пустым robots.txt и вообще без robots.txt?

На веб-сервере, который я теперь должен сообщить, я заметил, что robots.txt пуст. Я задавался вопросом, есть ли разница между пустым robots.txt и никаким файлом вообще. По-разному ли ведут себя сканеры в этих двух случаях? Итак, безопасно ли просто удалить пустой файл...

19
Как мне запретить весь каталог с robots.txt?

У меня есть два сайта, над которыми я сейчас работаю: корзина для покупок и еще один покупатель. Оба находятся под одним и тем же доменным именем, например, http://example.com/first_url http://example.com/second_url Оба эти URL имеют тонны страниц под ними http://example.com/first_url/product1...

18
Почему в результаты поиска Google включены страницы, запрещенные в файле robots.txt?

У меня есть несколько страниц на моем сайте, от которых я не хочу заниматься поисковыми системами, поэтому я запретил их в своем robots.txtфайле следующим образом: User-Agent: * Disallow: /email Однако недавно я заметил, что Google по-прежнему иногда возвращает ссылки на эти страницы в результатах...

17
Есть ли в Google кеш robots.txt?

Неделю назад я добавил файл robots.txt на один из моих сайтов, что должно было предотвратить попытки робота Google получить определенные URL-адреса. Однако в эти выходные я вижу, как робот Google загружает эти точные URL-адреса. Кэширует ли Google файл robots.txt и, если да, то...

16
Может ли robots.txt находиться в подкаталоге сервера?

У меня есть подкаталог, который я хотел бы скрыть от поисковых роботов поисковых систем. Один из способов сделать это - использовать robots.txtв корневом каталоге сервера (стандартный способ). Однако любой, кто знает URL-адрес веб-сайта и имеет некоторые базовые знания в Интернете, может получить...

15
Сайт был взломан, нужно удалить все URL, начинающиеся с +, из Google, использовать robots.txt?

Не могли бы вы дать мне знать, как заблокировать такие URL-адреса robots.txtдля роботов Google, чтобы они перестали индексироваться? http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q Мой веб-сайт был взломан, но теперь он восстановлен, но хакер проиндексировал 5000 URL в Google, и теперь я...

14
Что такое минимальный действительный файл robots.txt?

Мне не нравится, что я вижу много 404 ошибок в access.log моего веб-сервера. Я получаю эти ошибки, потому что сканеры пытаются открыть файл robots.txt , но не могут его найти. Поэтому я хочу разместить простой файл robots.txt , который предотвратит появление 404 ошибок в моем файле журнала. Какой...

12
Robots.txt: мне нужно запретить страницу, которая нигде не связана?

На моем веб-сайте есть несколько страниц, на которые пользователь может зайти, только если я дам ему / ей URL-адрес. Если я запрещу отдельные страницы robots.txt, они будут видны всем, кто изучает их. У меня такой вопрос: если я не буду связывать их откуда-либо или хотя бы с какой-либо...

12
Robots.txt - CSS разрешить или запретить

Разрешены ли CSS и шаблоны в robots.txt ? Должно ли это вызвать какие-либо проблемы? В Joomla CSS и шаблоны запрещены в robots.txt . Пожалуйста, помогите мне найти решение, разрешить ли запретить использование роботов для CSS, шаблонов и т. Д. Для моих будущих...

11
Может ли индекс карты сайта содержать другие индексы карты сайта?

У меня есть двуязычный веб-сайт с индексом карты сайта для каждого языка, который ссылается на несколько различных карт сайта (один для видео, один для статического контента и один для статей). Я хотел бы представить другую карту сайта, которая связывает индексы карты сайта, чтобы я мог связать эту...

11
Google Preview подчиняется Robots.txt?

Потому что это выглядит так. Для моих сайтов мы запрещаем каталог изображений, а в предварительном просмотре отсутствуют изображения, из-за чего сайт выглядит странно. Это так, и есть ли способ разрешить только боту предварительного просмотра доступ к изображениям с помощью robots.txt?...

11
Могу ли я вызвать Google, чтобы проверить мой robots.txt?

Я прочитал ответы на этот вопрос, но они все еще оставляют мой вопрос открытым: кеширует ли Google robots.txt? В Инструментах Google для веб-мастеров я не нашел способа повторно загрузить файл robots.txt . Из-за какой-то ошибки мой robots.txt был заменен на: User-agent: * Disallow: / И теперь весь...

11
Инструменты Google для веб-мастеров говорят мне, что роботы блокируют доступ к карте сайта

Это мой robots.txt : User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Sitemap: http://www.example.org/sitemap.xml.gz Но Инструменты Google для веб-мастеров говорят мне, что роботы блокируют доступ к карте сайта: Мы столкнулись с ошибкой при попытке доступа к вашему файлу Sitemap....

11
Скрыть поддомен от Google / поисковой системы SEO Результат?

У меня есть поддомен, который я не хочу отображать в результатах поиска. Скажем, у меня есть: http://www.example.com http://child.example.com Как я могу скрыть все URL child.example.comдомена, которые в данный момент отображаются в результатах...

11
Какие боты действительно стоит пускать на сайт?

Написав несколько ботов и увидев огромное количество случайных ботов, которые сканируют сайт, я задаюсь вопросом, как веб-мастер, каких ботов действительно стоит пускать на сайт? Сначала я подумал, что размещение ботов на сайте потенциально может принести на него реальный трафик. Есть ли какая-либо...

10
Как работает «Noindex:» в robots.txt?

Я наткнулся на эту статью в моих новостях SEO сегодня. Кажется, подразумевается, что вы можете использовать Noindex:директивы в дополнение к стандартным Disallow:директивам в robots.txt . Disallow: /page-one.html Noindex: /page-two.html Похоже, что это помешает поисковым системам сканировать первую...

10
Объединение пользовательских агентов в robots.txt

Могут ли пользовательские агенты быть перечислены вместе, а затем следовать их общим правилам, как в robots.txt ? User-agent: Googlebot User-agent: ia_archiver #Alexa User-agent: BingPreview #Microsoft User-agent: bingbot #Microsoft User-agent: MSNBot #Microsoft User-agent: Slurp #Yahoo User-agent:...