Как определить, сколько лет странице?

15

Я думал, что Google более или менее точно определил, кто первым разместил текст, а кто скопировал. Однако, когда я использую «инструмент поиска: настроенный интервал», результаты довольно странные. Я нашел страницы 2002 года для веб-сайта, который у меня был всего пару лет.

Так что Google не может точно определить, кто копировал, а кто написал оригинал. Что?

введите описание изображения здесь

Если это stackexchange.comбыло создано в 2009 году, то как это возможно? hermeneutics.seстарше, чем переполнение стека!

Ренан
источник
Кто-то владел доменным именем до вас? Какие страницы вы сравниваете в Google?
closetnoc
Я обновил вопрос с данными SE. Отметки времени не могут быть точными.
Ренан
2
Вау. Я не уверена. Я понимаю механизм этого нормально, но то, что делает Google, все еще остается загадкой. В сети очень мало информации о том, как Google определяет даты. У нас был вопрос относительно того, как Google определяет измененные даты совсем недавно. Я провел некоторые исследования, и там почти ничего нет. Тем не менее, я посмотрю снова. Но это может занять пару дней. Имейте в виду, что программное обеспечение CMS и, вероятно, код SE не возвращают даты создания и изменения, как Apache для HTML-страниц. И это может быть ответом.
closetnoc
Это не обязательно должен быть Google, но я действительно хочу знать, плагиат или плагиат моих пользователей. = /
Ренан
Пока что похоже, что Google не понимает формат даты в HTML, но это не является окончательным. Исходный код первой страницы примера не предоставляет четких подсказок о дате для Google. Google (по крайней мере) выглядит или дата в следующем порядке: URL, заголовок, тело (содержание), метатеги, дата последнего изменения из ответа HTTP. Запрос HEAD возвращает дату создания и дату последнего изменения. Кроме того, GET с if-Modified-Since либо возвращает ресурс с 200 Ok или возвращает 304 Not Modified. Код SE может не возвращать их, доступны только URL, заголовок, контент и метатеги.
closetnoc

Ответы:

12

Я исследовал ответ на этот вопрос следующим образом: с помощью Google, поскольку это мой пример, как Google получает даты создания и изменения, а также форматы дат, которые распознает Google. Пожалуйста, поймите, что эта информация не существует только на нескольких страницах, и мне пришлось найти данные из очень многих источников, некоторые из которых, кажется, не применяются напрямую, и собрать их воедино. В некоторых случаях информация получена из нескольких источников и не всегда цитируется.

Google ищет даты страниц в этом порядке; URL, тег заголовка, тело (содержимое), метатеги, заголовок ответа HTTP, по крайней мере, в отношении Google Search Appliance. В других параграфах в других документах порядок не был задокументирован, но список обсуждался и, казалось, подтверждает список. Если вы думаете об этом, это отражает порядок, который будет делать поисковая система; один - открыть вашу страницу (ссылка), а второй - прочитать страницу сверху вниз (заголовок, тело и метатег), за исключением мета-тега (мелкая деталь) и заголовка ответа HTTP. Вот список, что касается устройства:https://developers.google.com/search-appliance/documentation/68/admin_crawl/Preparing#docdaterule

Примечание. Дата начала - это дата, когда Google впервые запросила страницу. При отсутствии даты создания используется дата начала.

1] Любая поисковая система может запросить ресурс через HTTP-запрос GET, и веб-сервер возвращает дату последнего изменения в заголовке ответа с ресурсом в пакете данных.

2] Любая поисковая система может запросить информацию заголовка ресурса через запрос HTTP HEAD, и веб-сервер возвращает измененную дату в заголовке ответа без ресурса в пакете данных.

3] Любая поисковая система может запросить, если ресурс был изменен с определенной даты, запросив ресурс с HTTP GET, если if-Modified-Since установлен на дату. Если ресурс был изменен с момента установки даты, веб-сервер отвечает ответом 200 Ok и возвращает ресурс, или если ресурс не был изменен с момента установки даты, веб-сервер отвечает сообщением 304 Not Modified без возврата ресурса. ,

Google делает много запросов, используя метод № 3, чтобы сэкономить на пропускной способности. Вы увидите это в файлах журнала вашего веб-сервера.

Примечание. Возможно, что система управления контентом (CMS) или другое программное обеспечение не может надлежащим образом указать дату в заголовке ответа.

Эти примеры дат также взяты из документации по устройству Google, но существуют и в других местах, касающихся общего поиска. Я взял эти детали из документации на устройство просто потому, что его можно было вырезать и вставить в виде списка, где в других местах это было не так аккуратно.

4] Google ищет дату в URL. Он ищет следующие форматы; ГГГММДДЧЧ - ГГГГ - ГГГГММ.

5] Google ищет дату в теге заголовка. Он ищет следующие форматы; ГГГММДДЧЧ - ГГГГ - ГГГГММ, хотя я подозреваю, что другие форматы могут быть распознаны. См. ниже.

6] Google ищет дату в теге body (content). Он ищет следующие форматы; ГГГММДДЧЧ - ГГГГММДД - ГГГГММ - ГГГГ - ДДММГГГ - ГГМММДД - ММДДГГГГ - ГГММДД - ДДММГГ - ММДДГГ, хотя я подозреваю, что другие форматы могут быть распознаны. См. ниже.

Примечание. Известно, что Google специально ищет дату под первым H1тегом. Это потому, что блоги часто помещают даты в это место.

7] Google ищет метатег, подобный этому. <meta http-equiv="last-modified" content="YYYY-MM-DD@hh:mm:ss TMZ" />

Также говорят, что Google распознает следующие форматы даты.

YYYY-MD - YYYY.MD - YYYY / M / D - MD-YYYY - MDYYYY - M / D / YYYY - YY-MM-DD - YY.MM.DD - YY / MM / DD - WK, D MON, YR - WK, MON D, YR - D MON, YR - MON YYYY - MON D, YR - MON YY - YYYY-DM - ​​YYYY.DM - YYYY / D / M - DM-YYYY - DMYYYY - D / M / YYYY - ДД-ММ-ГГ - ММ-ДД-ГГ - ДД / ММ / ГГ - ММ / ДД / ГГ - ГГГГММДДЧЧ - ГГГГММДД - ГГГГММ - ГГГГ - ДДММГГГГ - ММДДГГГГ - ГГММДД - ДДММГГ - ММДДГГ

Исследование, которое я нашел, не ответило на вопрос времени.

В случае приведенных примеров, страницы не предоставляют подсказки даты, кроме как внутри тега span, который можно игнорировать. Возможно, что программное обеспечение / веб-сервер SE не может возвращать даты создания и изменения в заголовке ответа.

Почему и как Google вывел эти даты - хороший вопрос, который никогда не может быть решен. Я буду продолжать смотреть однако.

closetnoc
источник
3
У вас есть какие-либо ссылки на "Google ищет даты страниц в этом порядке; URL, тег заголовка, тело (содержимое), мета-теги, заголовок ответа HTTP."? У вас есть какой-либо номер или статистика для этого исследования? Если бы вы могли разместить ссылки на то, что вы разместили здесь, это было бы гораздо лучше для всех нас.
PatomaS
Я ценю, что вы спрашиваете это. Многое из того, что я нашел, было в клочках. Список был найден в нескольких местах, но порядок был найден в документации по поисковому устройству Google, и, похоже, его резервные копии содержались в абзацах в других местах. Я буквально просмотрел несколько десятков документов, на поиск которых ушло совсем немного времени. Я старался быть осторожным, чтобы сказать, что мне нужно собрать воедино данные из разных источников, поскольку, похоже, не было никакой прямой информации по этому вопросу. Я отредактирую заявление, чтобы сделать его более понятным.
closetnoc
Я также могу подтвердить, что следующая строка формата даты, содержащаяся на каком-то article.post > div.post-content > h2 > pуровне, была недавно обнаружена Google и использовалась для отображения даты: «Последнее обновление: 7 октября 2018 года»
Мэтт,
-2

Если вы хотите узнать, сколько лет домену, поищите в Google поисковую машину . Этот сайт - то, что вы ищете: http://archive.org/web/ .

Если вы хотите обнаружить плагиат, эта ссылка поможет вам: http://copyscape.com/signup.php?pro=0&o=f

Кроме того, поиск в Google для «проверки плагиата».

Надеюсь, я помог.

Pascut
источник
3
С уважением нужно перечитать вопрос.
closetnoc
Вопрос «Как определить, сколько лет странице?» Пожалуйста, перейдите по моей ссылке, и вы увидите, что ответ хороший. Спасибо, что прочитали это.
Паскут
3
Вы не читаете вопрос. Вы читаете заголовок. Обратный путь машины не отвечает на вопрос.
closetnoc
Вы правы, я отредактировал свой вопрос ..
Паскут
1
Wayback machine отслеживает страницы в домене. Бесполезно сравнивать даты между конкретными страницами. Я ищу точные средства, чтобы сказать, какой из них был опубликован первым.
Ренан