Как веб-мастер, отвечающий за крошечный сайт, на котором есть форум, я регулярно получаю жалобы от пользователей на то, что как внутренняя поисковая система, так и внешние поисковые запросы (например, при использовании Google) полностью загрязнены подписями моих пользователей (они используют длинные подписи и это часть опыта форума, потому что подписи имеют большой смысл на моем форуме).
Так что в основном я вижу два варианта на данный момент:
Рендеринг подписи в виде изображения, и когда пользователь нажимает на «изображение подписи», он попадает на страницу, содержащую настоящую подпись (со ссылками в подписи и т. Д.), И эта страница считается не подлежащей сканированию поиском. двигатель пауков). Это потребовало бы некоторой полосы пропускания и потребовало бы некоторой работы (потому что мне понадобилось бы средство визуализации HTML, создающее изображение и т. Д.), Но, очевидно, это решило бы проблему (есть крошечные ошибки в том, что подпись не будет соответствовать шрифтовой / цветовой схеме пользователи, но мои пользователи, в любом случае, очень креативны со своими подписями, используют пользовательские шрифты / цвета / размер и т. д., так что это не такая уж большая проблема).
Пометить каждую часть веб-страницы, которая содержит подпись, как не подлежащую сканированию.
Однако я не уверен в последующем: это то, что можно сделать? Вы можете просто пометить определенные части веб-страницы как не подлежащие сканированию?
источник
Другое решение - обернуть sig в span или div со стилем, установленным в,
display:none
и затем использовать Javascript, чтобы убрать это, чтобы текст отображался для браузеров с включенным Javascript. Поисковые системы знают, что он не будет отображаться, поэтому не должны его индексировать.Этот бит HTML, CSS и JavaScript должен сделать это:
HTML:
CSS:
JavaScript:
Вам нужно будет включить библиотеку JQuery .
источник
У меня была похожая проблема, я решил ее с помощью css, но это можно сделать и с помощью javascript и jquery.
1 - Я создал класс, который назову «
disallowed-for-crawlers
», и поместил этот класс во все, что я не хотел видеть ботом Google, или поместил его в промежуток с этим классом.2 - в основном CSS страницы у меня будет что-то вроде
3- Создайте файл CSS с именем disallow.css и добавьте его в robots.txt, чтобы запретить его сканирование, чтобы сканеры не обращались к этому файлу, но добавляли его как ссылку на вашу страницу после основного CSS.
4- В
disallow.css
я поместил код:Вы можете играть с JavaScript или CSS. Я просто воспользовался запретом и классами CSS. :) надеюсь, это поможет кому-то.
источник
Один из способов сделать это - использовать текстовое изображение, а не простой текст.
Вполне возможно, что Google в конечном итоге будет достаточно умен, чтобы читать текст с изображения, поэтому он может быть не полностью ориентирован на будущее, но с этого момента он должен работать как минимум некоторое время.
У этого подхода есть масса недостатков. Если человек слабовидящий, это плохо. Если вы хотите, чтобы ваш контент адаптировался к мобильным устройствам по сравнению с настольными компьютерами, это плохо. (и так далее)
Но это метод, который в настоящее время (несколько) работает.
источник
Это просто.
Перед тем, как вы откроете свою страницу, вам необходимо узнать, относится ли она к боту, компьютеру или телефону. Затем вам необходимо установить содержание соответственно. Это стандартная практика в наше время и основные функциональные возможности некоторых CMS.
В SE есть множество решений для перенаправления на основе ПОЛЬЗОВАТЕЛЬСКОГО АГЕНТА, которые можно добавить в ваш htaccess. Если это подходит для вашего программного обеспечения на форуме, вы можете запускать другой код с одной и той же БД, чтобы доставить то, что нужно Google, без всяких усилий и лишних усилий.
В качестве альтернативы вы можете поместить небольшую строчку в ваш PHP-код, которая гласит: «Если АГЕНТ ПОЛЬЗОВАТЕЛЯ == Googlebot, то не показывать подписи».
Если вы действительно не можете этого сделать, то можете заставить mod_proxy обслуживать бота и использовать его для удаления всего того, что генерирует ваш php-код, который бот не должен видеть.
Технически Google не одобряет, что их поисковой системе показывали страницу, отличную от того, что видит обычный посетитель сайта, однако на сегодняшний день они не исключают BBC и других, которые предоставляют контент для браузера / IP / посетителя, из результатов своей поисковой системы. , У них также есть ограниченные средства, чтобы видеть, был ли их бот «обманут».
Альтернативное решение скрытия контента с помощью CSS для его повторного включения скриптом также является серой областью. Согласно их собственным руководствам по инструментам для веб-мастеров от 6/6/11, это не очень хорошая идея:
http://www.google.com/support/webmasters/bin/answer.py?answer=66353
Это может быть не каменный планшет, но он актуален и от Google.
Уловка скрытия содержимого не будет работать с меньшинство людей, у которых нет javascript, однако это может не вызывать особого беспокойства, однако ожидание загрузки документа и последующее отображение подписей не будут удовлетворительными при просмотре, так как Если страница загружена, то она будет перемещаться по мере появления скрытых подписей, а затем перемещать содержимое вниз по странице. Этот тип загрузки страницы может вызывать раздражение, если у вас низкоуровневая сеть, но может быть незаметным, если у вас быстрый компьютер для разработчиков с быстрым интернет-соединением.
источник
Нет, нельзя запретить роботам сканировать части страниц. Это целая страница или ничего.
Фрагменты в результатах поиска Google обычно берутся из мета-описания на странице. Таким образом, вы можете заставить Google показывать определенную часть страницы, поместив ее в мета-тег описания. С пользовательским контентом сложно получить хорошие фрагменты, но, вероятно, сработает первое сообщение в теме.
Единственный другой способ, которым я могу придумать, - это использовать Javascript. Нечто подобное предложенному paulmorriss может сработать, но я думаю, что поисковые системы все равно будут индексировать контент, если он находится в HTML. Вы можете удалить его из HTML, сохранить его в строке Javascript, а затем добавить обратно при загрузке страницы. Это становится немного сложным, хотя.
Наконец, следует помнить одну вещь: если Google показывает подписи пользователей в своих фрагментах, он решил, что эта часть наиболее релевантна запросу пользователя.
источник
Вы можете поместить страницу в PHP, если с «else», что приводит к капче, которая дает ключ для части if.
Мне все равно, потому что если учетные данные пользователя не совпадают на моей странице, они получают пустую страницу или отправляются на страницу входа.
$key
должен быть хеш текущего дня или что-то, что меняется, поэтому недостаточно добавить значение в сеанс.Напишите в комментарии, если хотите, чтобы я добавил пример капчи, потому что у меня его сейчас нет.
источник
Очевидно, <! - googleoff: all -> и <! - googleon: all -> делают то, что вы хотите.
Подробнее https://www.google.com/support/enterprise/static/gsa/docs/admin/70/gsa_doc_set/admin_crawl/preparing.html#1076243
https://perishablepress.com/tell-google-to-not-index-certain-parts-of-your-page/
источник