Как Google распознает дату публикации сообщения

17

Когда я что-то ищу в Google, я иногда вижу дату публикации поста / статьи внизу. Я также искал свою статью на своем WordPress-сайте, и Google также узнал дату ее публикации.

Когда я открываю источник моего веб-сайта, я не вижу никаких специальных тегов или чего-либо, что бы указывало на дату публикации. Он написан только в обычном div, без каких-либо специальных тегов, которые сообщали бы SE, что это дата публикации (у меня тоже могут быть другие даты на странице).

Так это жестко запрограммировано в Google точное место даты публикации Wordpress в дереве DOM, или я что-то упустил?

Я создаю новый веб-сайт со своей собственной CMS и пытаюсь выяснить, как реализовать распознавание даты публикации.

Кан Пойразоглу
источник
2
Вы, безусловно, что-то упускаете: вы только смотрели на HTML, но есть также заголовки HTTP, которые сообщают, когда страница была изменена. Что они сообщают для постоянной ссылки вашей статьи? Я предполагаю, что Google использует это в сочетании со своими собственными записями о том, насколько изменилась страница, но у меня нет фактических доказательств - следовательно, комментарий, а не ответ.
Питер Тейлор
да, у меня была "грубая" попытка .. Я буду
изучать
@Peter Нет сомнений, что заголовки HTTP (особенно заголовок Last-Modified) являются метрикой, которую используют SE. Однако я сомневаюсь, что он играет большую роль в определении «даты публикации» статьи - по крайней мере, не в том, что Google отображает в качестве даты публикации. (Другие SE не отображают «дату публикации»?) Дата публикации статьи, вероятно, не является последней измененной датой документа. Большинство страниц на динамических сайтах (даже для постов WordPress) возвращаются близко к текущей дате / времени. ИМО заголовок Last-Modified в основном используется для кэширования.
MrWhite
я думаю, что это как-то связано с
картой
HTTP, последний измененный stackoverflow.com/questions/204010/… или некоторые нестандартные метаданные HTML: stackoverflow.com/questions/4575967/… - другие возможности, но я не уверен, действительно ли Google их использует.
Сиро Сантилли 新疆 改造 中心 法轮功 六四 事件

Ответы:

4

Вам следует просмотреть XML-карту сайта или версию RSS-канала, чтобы проиндексировать данные публикации через основные поисковые системы, такие как Google, Yahoo и MSN. Создайте карту сайта XML для своего сайта и отправьте ее в инструменты веб-мастера для индексации.

eThan Hunt
источник
7

У меня просто была проблема, что все мои главные страницы были показаны обновленными более 4 лет назад, хотя Google знает , что это неправда, потому что страницы индексируются так долго и существенно меняются от месяца к месяцу. Будучи по-настоящему озадаченным, затем очень раздраженным, а затем снова озадаченным, я наконец нашел проблему. Наши юридические условия обслуживались скрытым div с надписью «Последнее обновление: 30 октября 2007 г.», и div загружался почти на всех наших страницах. (Потому что он появляется при регистрации) Я удалил его, и теперь я предполагаю, что дата либо исчезнет, ​​либо будет исправлена ​​к чему-то более разумному.

Предостерегающая история и еще одно доказательство того, что они проверяют семантику сайта больше, чем технические детали или собственную историю индексации.

mmdanziger
источник
Включаете ли вы дату последнего изменения ваших страниц где-либо еще на странице, RSS-канал или XML-карту сайта?
MrWhite
Я не знаю, потому что сайт не новостной, и я бы предпочел не подчеркивать это. В идеале, не было бы никакой даты для моей домашней страницы. Кроме того, я предполагаю, что они, вероятно, берут последний продукт с большим количеством соли - я знаю, был бы на их месте.
mmdanziger
7

Я очень сомневаюсь, что дата публикации поста или статьи основана на <lastmod>записи в карте сайта XML (как предлагали другие) или HTTP-заголовке Last-Modified в этом отношении. XML Sitemap является только рекомендательным, а не официальным. Дата последнего изменения документа, вероятно, не совпадает с (оригинальной) датой публикации статьи. И, как я упоминал в своем комментарии вверху страницы, дата последнего изменения документа, вероятно, более важна для кэширования и, возможно, определения скорости сканирования. Заголовок Last-Modified HTTP динамически генерируемых страниц часто очень близок к фактической дате / времени (как и для блогов WordPress).

С другой стороны, лента RSS / Atom содержит этот конкретный фрагмент информации. И действительно, на сайтах Wordpress, которые не включают дату публикации в контент, дата публикации по-прежнему отображается в результатах поиска Google. И, насколько я могу судить, это соответствует дате в RSS-канале.

РЕДАКТИРОВАНИЕ № 1: Тем не менее, RSS-канал не обязательно содержит все страницы. В большинстве случаев он должен содержать только самые последние или недавно обновленные страницы. Но нет никаких причин, по которым Google должен забыть то, что он уже прочитал, и предоставление содержания этой страницы не изменилось, равно как и дата последнего изменения.

Если RSS-лента отсутствует, я думаю, что Google достаточно умен, чтобы анализировать содержимое страницы. Особенно, если даты помечены «семантически» с помощью микроформатов . Вполне возможно, что Google увидит следующее в качестве официальной даты публикации статьи, в которой она содержится:

<abbr class="published" title="2010-08-27T15:45:00-0700">
Friday, August 27th, 2010
</abbr>

Google, безусловно, читает микроформаты - hCard, hReview и т. Д.

Просто добавлю, я не думаю, что Google будет указывать дату публикации, если не сможет найти что-то авторитетное, что могло бы предложить это. Он не будет выводить «дату публикации» на спекулятивных данных, так как неправильная «дата публикации» никому не нужна, и Google получит за нее много информации!

И просто для записи (если @Tom предлагает иное :) Я думаю, что посты / статьи должны иметь визуально отображаемую дату публикации. Многие этого не делают, и это может разочаровать читателя, особенно при изучении технологических проблем, и вы обнаружите, что прочитав половину статьи, она устарела!

РЕДАКТИРОВАТЬ # 2: С тех пор я испытал аналогичное раздражение, которое @mmdanziger подробно описывает в своем ответе. На одном из моих старых сайтов у меня есть текст формы «Сайт обновлен до 17 июня 2012 года» (не помечен каким-либо особым образом) в верхней части каждой страницы (записывается на страницу с помощью JavaScript !!). Эта же дата была выбрана Google и теперь отображается рядом с несколькими (но не всеми) страницами, которые появляются в SERPS - это, конечно, не дата публикации страницы. Казалось бы, Google просто списывает на страницу строку вида «последнее обновление ( строка даты )» (обработав JavaScript !!). Этот конкретный сайт не имеет RSS-канал. На сайте есть файл Sitemap.xml, но даты разные.

Я заметил подобное поведение и на других сайтах.

MrWhite
источник
Как он узнает правильную дату из этого? <div class="footer"> <div class="links"> April 24, 2011 | <a href=...Это ЕДИНСТВЕННОЕ место, которое ссылается на дату публикации моего поста, и Google находит ее и правильно отображает в результатах поиска
Can Poyrazoğlu
Есть ли что-то конкретное в якоре, который следует за ним? Опять же, это не может быть. У вас также есть канал RSS (связанный с мета-тегами документа)?
MrWhite
Я искал ответ "как Google определяет дату?" но заметил то же самое! Google пытается найти строку времени на самой странице, а не в последнем измененном заголовке или Sitemap.xml <lastmod>! Спасибо за подтверждение моих мыслей!
evilReiko
5

Я думаю, что Google использует файл Sitemap и RSS-канал для распознавания даты публикации. Вы можете использовать эту функцию в своей CMS, создав карту сайта XML в соответствии со стандартами .

<lastmod>2011-08-18</lastmod>
Вамси Кришна Б
источник
2

По словам Джона Мюллера из Google:

Мы используем различные сигналы, чтобы определить, какую дату показывать, или имеет ли смысл показывать ее вообще; это не связано с одним конкретным атрибутом.

Джон Мюллер - Твиттер

Однако я считаю, что, скорее всего, Google ищет даты на веб-страницах в следующих местах:

  • На видном месте на странице, используя машинное обучение
  • Структурированные данные на Schema.org, особенно если эти данные также можно увидеть на странице
Максимилиан Лаумейстер
источник
1

Я думаю, что он разумно ищет любые даты на странице, и когда он уверен, что это соответствующая дата, он использует его.

Иногда это немного сложно, так как я думаю, что это может оказать негативное влияние на способность щелкать по SERP, я полагаю, что это может оказать временное положительное влияние, если это недавняя статья / пост, но я уверен, что мои сайты будут лучше без него (Поисковые системы Google не могут быть лучше без него, хотя!)

Нет возможности управлять им через Google, только вашими собственными методами. Вы также можете:

  • Замените даты динамически сгенерированными изображениями, чтобы остановить их обнаружение Google, но это может привести к другим проблемам, таким как визуальное выравнивание / отображение согласованного шрифта / доступность и т. Д.
  • Уберите все даты со страниц (это может снова разочаровать посетителей / пользователей, когда они хотят узнать возраст источника, если у вас есть соответствующая информация).

По этим причинам я бы просто проигнорировал это.

Том Гуллен
источник
Я не пытаюсь удалить дату :) Я пытаюсь добавить функцию даты на новый сайт, который я
строю