Google Preview подчиняется Robots.txt?

11

Потому что это выглядит так. Для моих сайтов мы запрещаем каталог изображений, а в предварительном просмотре отсутствуют изображения, из-за чего сайт выглядит странно.

Это так, и есть ли способ разрешить только боту предварительного просмотра доступ к изображениям с помощью robots.txt?

РЕДАКТИРОВАТЬ: Похоже, превью создаются как обычным ботом Google, так и встроенным ботом Google Web Preview, как уже упоминалось (кратко) в блоге для веб-мастеров .

Используя сайт: search и мое программное обеспечение для мониторинга, я мог видеть, когда бот попал на мой сайт, и когда это произошло, изображения хорошо отображались в предварительном просмотре. Поэтому я предполагаю, что обычный сканер игнорирует изображения в файле robots.txt, но сканер предварительного просмотра получает изображения в любом случае.

Эта реализация кажется немного неуклюжей, потому что мои варианты выглядят так:

  1. разрешить роботу Google сканировать мои изображения (что я не хочу делать)
  2. используйте тег nosnippet, который блокирует предварительный просмотр, но также фрагменты (что я не хочу делать)
  3. Пусть появятся шаткие превью, которые могут отрицательно повлиять на количество кликов
plntxt
источник
Если это просто вопрос не индексирования изображений, вы можете разрешить сканирование, но обслуживать изображения с помощью заголовка HTTP-тега x-robots с "noindex".
Джон Мюллер
@ Джон Мюллер Это похоже на ответ. Почему бы не опубликовать его в разделе ответов?
plntxt

Ответы:

3

Я думаю, что Джон Мюллер понял это прямо в комментариях.

Если дело не в том, чтобы проиндексировать изображения, вы можете разрешить сканирование, но обслуживать изображения с помощью заголовка HTTP-тега x-robots с "noindex"

Я не знал, что вы можете позволить Google сканировать контент без его индексации. Я поставил его технику на место и просто жду, когда его переползут, чтобы посмотреть, сработает ли он.

Я приму это как ответ через несколько дней, если Джон не захочет добавлять свои комментарии в раздел ответов, чтобы он мог заработать репутацию.

plntxt
источник
Извините за комментарий-ответ :). Следует иметь в виду, что в данный момент этот процесс не так быстр. Изменение статуса индексации изображений обычно медленнее, чем веб-поиск, и обновление изображений для предварительного просмотра также может занять гораздо больше времени, чем обновление обычного контента для веб-поиска (кэшированная страница, заголовок, фрагмент). На практике я представляю, что для того, чтобы увидеть какие-либо изменения, вам потребуется несколько недель, так что наберитесь терпения :).
Джон Мюллер
Терпение является ключевым. Через несколько недель после изменения некоторые изображения теперь видны, но все еще отсутствуют. Но, похоже, это решение моей проблемы.
plntxt
2

Поскольку большая часть предварительного просмотра выполняется сканером ботов Google, блокировка сканирования некоторой части вашего сайта повлияет на предварительный просмотр ...

Почему вы не хотите, чтобы бот Google сканировал ваши изображения?

Паскаль Куй
источник
2
Мы тратим значительное время и деньги, вкладывая деньги в фотографию продукта, и мы предпочли бы не допускать к нашим изображениям поиска изображений, поскольку люди, которые используют поиск изображений, обычно ищут изображение и не хотят покупать продукт. Если бы наши изображения были в индексе, конкурентам было бы легче их украсть.
plntxt
1
Вы можете попытаться нанести водяные знаки на ваши фотографии и / или стеганографию с
указанием
1
@ГРАММ. Qyy Или я мог бы заплатить бесконечное количество обезьян, чтобы сканировать в Интернете для изображений, защищенных авторским правом.
plntxt
@Jim: Или вы можете хранить свои фотографии на бумаге, и никогда, никогда не размещать их в Интернете ... ^^
Паскаль Qyy
1
Хороший момент - ничто не может полностью защитить ваши фотографии, но я бы предпочел, чтобы их не было в индексе Google. Я не фанат водяных знаков, и самый экономичный способ уменьшить наши изображения в другом месте - это исключить их из индекса.
plntxt
2

Ниже приведено техническое решение, которое может или не может быть просто применить к вашему сайту.

Возможно (даже вероятно), что Google предложит способ сделать это с помощью всего нескольких подсказок в метаданных или robots.txt, но до тех пор ....


Шаг 1.

Создайте службу перенаправления / сервлет для изображений на первой странице.

Т.е. URL вроде

/frontpageimages/[image name]

что делает сервер перенаправления на

/images/[image name]

Шаг 2.

Переписать все ссылки на изображения на главной странице (и только на первой странице), чтобы пройти через службу перенаправления, начиная с шага 1, вместо прямой ссылки на изображение.

Шаг 3.

Убедитесь, что robots.txt позволяет сканировать googlebot /frontpageimages/


Это должно гарантировать, что Google может сканировать любые изображения, с которыми он сталкивается, на вашей главной странице, оставляя изображения только на других страницах.

Хотя служба перенаправления (теоретически) может использоваться для сканирования всех ваших изображений без технического нарушения вашего файла robots.txt, роботы с хорошим поведением (например, googlebot) не будут этим заниматься. И роботы с плохим поведением не будут беспокоиться о robots.txt.

Kris
источник
Кому нужна только их первая страница с предварительным просмотром? Я знаю, что хочу, чтобы на каждой странице был хороший предварительный просмотр. Если вы делаете это для каждой страницы, вы, по сути, сводите на нет цель блокирования изображений.
Джон Конде
@ Джон Ты прав. В этом случае вы либо хотите, чтобы Google проиндексировал вас, либо нет.
Крис