Я думал, что Google более или менее точно определил, кто первым разместил текст, а кто скопировал. Однако, когда я использую «инструмент поиска: настроенный интервал», результаты довольно странные. Я нашел страницы 2002 года для веб-сайта, который у меня был всего пару лет.
Так что Google не может точно определить, кто копировал, а кто написал оригинал. Что?
Если это stackexchange.com
было создано в 2009 году, то как это возможно? hermeneutics.se
старше, чем переполнение стека!
Ответы:
Я исследовал ответ на этот вопрос следующим образом: с помощью Google, поскольку это мой пример, как Google получает даты создания и изменения, а также форматы дат, которые распознает Google. Пожалуйста, поймите, что эта информация не существует только на нескольких страницах, и мне пришлось найти данные из очень многих источников, некоторые из которых, кажется, не применяются напрямую, и собрать их воедино. В некоторых случаях информация получена из нескольких источников и не всегда цитируется.
Google ищет даты страниц в этом порядке; URL, тег заголовка, тело (содержимое), метатеги, заголовок ответа HTTP, по крайней мере, в отношении Google Search Appliance. В других параграфах в других документах порядок не был задокументирован, но список обсуждался и, казалось, подтверждает список. Если вы думаете об этом, это отражает порядок, который будет делать поисковая система; один - открыть вашу страницу (ссылка), а второй - прочитать страницу сверху вниз (заголовок, тело и метатег), за исключением мета-тега (мелкая деталь) и заголовка ответа HTTP. Вот список, что касается устройства:
https://developers.google.com/search-appliance/documentation/68/admin_crawl/Preparing#docdaterule
Примечание. Дата начала - это дата, когда Google впервые запросила страницу. При отсутствии даты создания используется дата начала.
1] Любая поисковая система может запросить ресурс через HTTP-запрос GET, и веб-сервер возвращает дату последнего изменения в заголовке ответа с ресурсом в пакете данных.
2] Любая поисковая система может запросить информацию заголовка ресурса через запрос HTTP HEAD, и веб-сервер возвращает измененную дату в заголовке ответа без ресурса в пакете данных.
3] Любая поисковая система может запросить, если ресурс был изменен с определенной даты, запросив ресурс с HTTP GET, если if-Modified-Since установлен на дату. Если ресурс был изменен с момента установки даты, веб-сервер отвечает ответом 200 Ok и возвращает ресурс, или если ресурс не был изменен с момента установки даты, веб-сервер отвечает сообщением 304 Not Modified без возврата ресурса. ,
Google делает много запросов, используя метод № 3, чтобы сэкономить на пропускной способности. Вы увидите это в файлах журнала вашего веб-сервера.
Примечание. Возможно, что система управления контентом (CMS) или другое программное обеспечение не может надлежащим образом указать дату в заголовке ответа.
Эти примеры дат также взяты из документации по устройству Google, но существуют и в других местах, касающихся общего поиска. Я взял эти детали из документации на устройство просто потому, что его можно было вырезать и вставить в виде списка, где в других местах это было не так аккуратно.
4] Google ищет дату в URL. Он ищет следующие форматы; ГГГММДДЧЧ - ГГГГ - ГГГГММ.
5] Google ищет дату в теге заголовка. Он ищет следующие форматы; ГГГММДДЧЧ - ГГГГ - ГГГГММ, хотя я подозреваю, что другие форматы могут быть распознаны. См. ниже.
6] Google ищет дату в теге body (content). Он ищет следующие форматы; ГГГММДДЧЧ - ГГГГММДД - ГГГГММ - ГГГГ - ДДММГГГ - ГГМММДД - ММДДГГГГ - ГГММДД - ДДММГГ - ММДДГГ, хотя я подозреваю, что другие форматы могут быть распознаны. См. ниже.
Примечание. Известно, что Google специально ищет дату под первым
H1
тегом. Это потому, что блоги часто помещают даты в это место.7] Google ищет метатег, подобный этому.
<meta http-equiv="last-modified" content="YYYY-MM-DD@hh:mm:ss TMZ" />
Также говорят, что Google распознает следующие форматы даты.
YYYY-MD - YYYY.MD - YYYY / M / D - MD-YYYY - MDYYYY - M / D / YYYY - YY-MM-DD - YY.MM.DD - YY / MM / DD - WK, D MON, YR - WK, MON D, YR - D MON, YR - MON YYYY - MON D, YR - MON YY - YYYY-DM - YYYY.DM - YYYY / D / M - DM-YYYY - DMYYYY - D / M / YYYY - ДД-ММ-ГГ - ММ-ДД-ГГ - ДД / ММ / ГГ - ММ / ДД / ГГ - ГГГГММДДЧЧ - ГГГГММДД - ГГГГММ - ГГГГ - ДДММГГГГ - ММДДГГГГ - ГГММДД - ДДММГГ - ММДДГГ
Исследование, которое я нашел, не ответило на вопрос времени.
В случае приведенных примеров, страницы не предоставляют подсказки даты, кроме как внутри тега span, который можно игнорировать. Возможно, что программное обеспечение / веб-сервер SE не может возвращать даты создания и изменения в заголовке ответа.
Почему и как Google вывел эти даты - хороший вопрос, который никогда не может быть решен. Я буду продолжать смотреть однако.
источник
article.post > div.post-content > h2 > p
уровне, была недавно обнаружена Google и использовалась для отображения даты: «Последнее обновление: 7 октября 2018 года»Если вы хотите узнать, сколько лет домену, поищите в Google поисковую машину . Этот сайт - то, что вы ищете: http://archive.org/web/ .
Если вы хотите обнаружить плагиат, эта ссылка поможет вам: http://copyscape.com/signup.php?pro=0&o=f
Кроме того, поиск в Google для «проверки плагиата».
Надеюсь, я помог.
источник