Robots.txt - CSS разрешить или запретить

12

Разрешены ли CSS и шаблоны в robots.txt ?

Должно ли это вызвать какие-либо проблемы?

В Joomla CSS и шаблоны запрещены в robots.txt . Пожалуйста, помогите мне найти решение, разрешить ли запретить использование роботов для CSS, шаблонов и т. Д. Для моих будущих веб-сайтов.

Манджу Джордж
источник
Я не думаю, что Joomla блокирует эти файлы по умолчанию - если вы на это намекаете?
MrWhite

Ответы:

23

Совсем недавно Google обновил свои рекомендации, чтобы официально заявить, что вам не следует блокировать доступ к файлам CSS или JS в файле robots.txt . Это гарантирует, что когда Google сканирует сайт, он может отображать его точно так же, как браузер.

Если вы заблокируете файлы CSS или JS, это может повлиять на эффективность работы вашего сайта в рейтинге.

Более подробная информация здесь: Обновление наших технических руководств для веб-мастеров и здесь: Руководства для веб-мастеров

Поскольку это недавняя рекомендация, многие веб-сайты и CMS (например, Joomla) часто блокируют такие файлы в файле robots.txt . Причиной этого, как правило, было то, что поисковым системам не нужно сканировать или индексировать эти файлы, поэтому, чтобы предотвратить индексацию ненужных файлов и каталогов и сохранить «бюджет сканирования», они часто блокируются в файле robots.txt .

Максимум
источник
2
Google на самом деле довольно долго говорил, что вам не следует блокировать JS и CSS (видео Мэтта Каттса от марта 2012 года), поскольку это может повредить способности G сканировать ваш сайт, просто они недавно сделали его «более официальным».
MrWhite
2
Было рекомендовано не блокировать CSS и JS более десяти лет. Я знаю, что рендеринг поисковыми системами кажется новым, но это не так, и некоторые формы рендеринга, включая простой JS, существуют очень давно.
closetnoc
1
Дополнительное примечание (несколько связанное, поскольку оно часто используется с JS) - Что касается любых контроллеров, делающих маршрут доступным через theme / view / JSON / URi - вы должны заблокировать их, или вы можете столкнуться с индексируемыми не тематическими областями вместо страницы с использованием указанного фасет данных Это область «просмотра», которую можно блокировать, особенно вещи, которые JS использует, например, JSON. Часто G запускает JS, видит ссылку JSON и посещает ее. Вызывает ошибки или, если это тема, наполовину построенный индекс. Это целый новый can-o-черви, но просто имейте в виду.
дхаупин
1
Я был вынужден выразить свое категорическое несогласие с отношением к культу груза, которое мы должны сделать, что бы ни говорил Google. Google также заявляет, что ваш сайт будет иметь более высокий рейтинг, если вы позволите им сканировать изображения, использовать HTTPS и т. Д. Выполняя все, что говорит Google, вы просто даете им больше возможностей, чтобы предъявлять более высокие требования. В конце концов, вы создаете свой сайт для людей или роботов?
переполнение вопроса
1
Угадайте, это зависит от того, насколько вы полагаетесь на хороший рейтинг в Google? Хотя, как и большинство вещей, это всего лишь небольшой показатель в большом количестве факторов, которые они имеют. Как вы упомянули, недавно они сказали, что HTTP является небольшим фактором ранжирования, но я не изменил ни один из сотен сайтов, над которыми я работаю, на HTTP, и их рейтинг в порядке.
Макс
3

Стратегия для вашего robots.txt всегда должна отвечать на вопрос: какие разделы моего веб-сайта не должны сканироваться роботом, а какие разделы могут сканироваться роботом.

Роботы реализуют свою собственную логику и имеют несколько целей (не только у Google есть сканер ...), поэтому, если вы предполагаете, что робот каким-то образом «отвлекается» на ваши файлы CSS и JS, вы открываете черный ящик робота и предполагаете, что текущая реализация и текущая цель робота. Это бесполезная долгосрочная стратегия.

Вместо того, чтобы думать в области робота, попробуйте думать в области контента вашего Интернета.

Я хочу отметить, что файл robots.txt не является механизмом безопасности.

saintedlama
источник
1

Шаблоны используются приложением программного обеспечения для ведения блогов или управления контентом (CMS) и не должны быть доступны извне, так как CSS читается браузером и поисковыми системами и должен читаться. Сказав это, я не буду блокировать ни один, но я также не буду менять то, что CMS. Поисковые системы и боты не заботятся о ваших шаблонах. Просто заблокируйте доступ к вашему сайту по URL / URI, который вы не хотите индексировать или читать, но не рассматриваете robots.txt как инструмент безопасности. Он не предназначен для этого.

closetnoc
источник