Наткнулся на объявление от Google: http://googlewebmastercentral.blogspot.in/2014/10/updating-our-technical-webmaster.html
Здесь утверждается:
Для оптимального рендеринга и индексации в нашем новом руководстве указано, что вы должны разрешить роботу Google доступ к файлам JavaScript, CSS и изображениям, которые используют ваши страницы. Это обеспечивает оптимальную визуализацию и индексацию вашего сайта. Запрещение сканирования файлов Javascript или CSS в файле robots.txt вашего сайта напрямую влияет на то, насколько хорошо наши алгоритмы отображают и индексируют ваш контент, и может привести к неоптимальному ранжированию.
По умолчанию файл Joomla robots.txt поставляется с запрещением:
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Посоветуйте, пожалуйста, удаляем ли мы нижеуказанные элементы из файла robots.txt на основании объявления Google?
Disallow: /components/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Это то, что рекомендуется согласно объявлению для сайтов, основанных на Joomla?
robots.txt
так как никто (даже поисковые машины, которые сейчас предъявляют требования Google к тому, что вы не должны запрещать) все равно не последует этому?Ответы:
Честно говоря, вам лучше удалить все из вашего robots.txt. Насколько я вижу, все файлы PHP в Joomla содержат строку
Это означает, что если вы загрузите PHP-файл прямо в браузер, все, что вы получите, - это пустой файл, который поисковые системы будут игнорировать. (Они никогда не должны сталкиваться с ними в любом случае, если вы не связали их напрямую.)
Проблема с блокировкой некоторых из этих каталогов состоит в том, что некоторые компоненты и модули хранят свои файлы CSS / JS внутри этих соответствующих каталогов, а не в предпочитаемых папках media или images.
Так что нет никаких причин блокировать любые файлы Joomla от Google.
источник
Помимо общего использования / отсутствия такового
robots.txt
на хорошо управляемом сайте Joomla с «хорошими» сторонними расширениями - единственные места, которые должны содержать CSS, JS или изображения:и, конечно, их подкаталоги .
Таким образом, вы можете просто удалить их из
robots.txt
.источник
В Joomla 3.3 эти строки были удалены из файла robots.txt:
Более подробная информация здесь: http://www.energizethemes.com/blog/joomla/have-you-updated-the-joomla-robots-txt-file.html
источник
Если вы видите свои страницы без ошибок при загрузке как Google в WMT, то вы, вероятно, в порядке. Но в будущем вы можете обновить контент на своем сайте, что потребует некоторых скриптов / CSS из некоторых заблокированных папок. Поэтому я думаю, что вам может быть лучше разрешить поисковым системам сканировать все эти папки, содержащие CSS / JavaScript.
источник
Самые последние версии Joomla больше не блокировать
/media/
и/templates/
папки:Не все расширения соответствуют рекомендациям о том, где размещать файлы CSS, JS и т. Д., Поэтому хороший способ обойтись - разрешить Google доступ к этим файлам независимо от того, где они находятся.
Вы можете добиться этого, вставив несколько строк в начало вашего
robots.txt
файла следующим образом:РЕДАКТИРОВАТЬ:
Спасибо @ w3dk и @Stephen Ostermiller за отзывы! Ты совершенно прав. Лучше сделать что-то вроде этого:
К сожалению, это не работает должным образом, потому что более длинные (более конкретные) правила переопределяют более короткие правила, а разрешающие строки игнорируются. Похоже, не имеет значения, следует ли линиям разрешения следовать линиям запрета или наоборот.
Единственный способ, которым я могу обойти это, - это сделать что-то вроде этого, которое, кажется, работает, когда я тестирую это в Инструментах для веб-мастеров:
РЕДАКТИРОВАТЬ 2 - ЛУЧШЕЕ РЕШЕНИЕ:
Итак, я провел небольшое исследование и нашел ответ на https://stackoverflow.com/a/30362942/1983389
Это представляется наиболее правильным и наиболее поддерживается решение во всех веб - сканерам что - то вроде следующего (предоставление доступа к
*.css
и*.js
файлам в/bin
,/cache
,/installation
,/language
,/logs
, и/tmp
папки и , возможно , некоторые из других папок имеет мало смысла):источник
Disallow:
вUser-agent: Googlebot
группу, что было бы более читабельным.)/logs/
, не позволяя другим ботам делать это.