Как узнать, когда URL был впервые проиндексирован Google?

16

Как узнать, когда Google впервые проиндексировал определенный URL? Я бы предпочел решение, которое работает даже для URL-адресов конкурентов, которые не принадлежат мне.

matcheek
источник
1
Вполне возможно, что ответ «нет». Google может даже не хранить эту информацию (поскольку нет особой причины, по которой они должны это делать), или, даже если они это сделают, они могут не раскрывать ее третьим лицам.
Ильмари Каронен
1
Как уже упоминали другие, вы не можете получить эту информацию. Если у вас есть доступ к журналам сервера, вы можете увидеть, когда он был впервые просканирован, но даже это не означает, что он был проиндексирован.
Джон Мюллер

Ответы:

15

Чтобы узнать возраст URL-адреса, перейдите по этой ссылке, заменив www.example.comURL-адрес, который вы хотите:

https://www.google.com/search?tbs=cdr%3A1%2Ccd_min%3A1%2F1%2F2000&q=site%3Ahttp%3A%2F%2Fwww.example.com&safe=active&gws_rd=ssl

Например, вот результат Google для мета-сайта Stack Overflow : введите описание изображения здесь

В противном случае, машина Wayback также является хорошим решением, но менее точным из моего опыта.

Zistoloen
источник
3
Эта функция Google также доступна на английском языке? Вы связались с французской версией.
Стивен Остермиллер
1
@StephenOstermiller Просто измените слово с .frна .com.
MDMoore313
2
@Zistoloen +1 за ваш ответ, но у меня есть сомнения в вашем запросе. Как вы сказали, я искал www.stackexchange.com, используя ваш пример запроса, но он не дал никакого результата. Я искал, удалив wwwтакже в это время, он показывает результат для даты, Dec 1, 2014которая является очень недавней датой, которая не может быть возрастом URL. Я ищу неправильно? или чего-то не хватает?
Сатия Кумар
2
Я «украл» этот ответ и добавил его к своему ответу с лучшим объяснением. Это отличный трюк, Зистолоен.
Стивен Остермиллер
6
@Stephen & Zistoloen: Это обычно не дата, когда страница была впервые проиндексирована Google. На основании некоторого тестирования, дата, показанная с помощью этого метода, похоже, либо извлекается из содержимого страницы (если Google считает, что она видит что-то похожее на дату «опубликовано» или «последний раз изменено»), либо, если нет в содержании указана дата, основанная на дате, когда Google в последний раз наблюдал (существенное?) изменение страницы. Конечно, если страница никогда не изменялась после первой публикации, это может совпадать с датой ее публикации, но это не гарантируется.
Ильмари Каронен
8

Zistoloen нашел способ, позволяющий Google отображать дату, когда она впервые проиндексировала содержимое страницы. Я также добавляю это к своему ответу, потому что я думаю, что могу объяснить это более ясно.

  1. Ищите в Google что-то, что приводит к нужной странице в результате
  2. Используйте «Инструменты поиска»
  3. Выберите «Custom Range ...» из выпадающего меню «Any time»
  4. Введите большой диапазон дат, например, с 01.01.1900 по 1/1/2020.

Google покажет дату обнаружения контента, который находится на странице в результатах поиска.

первый индексированный

Если страница обновляется новым содержанием, Google также обновляет эту дату. Таким образом, это скорее дата «сначала проиндексировал этот контент», а не дата «сначала проиндексировал этот URL».


Кэш Google для страницы показывает, когда страница была проиндексирована в последний раз. Вы можете видеть, что домашняя страница Stack Exchange была проиндексирована в последний раз:

введите описание изображения здесь


Другим вариантом является использование Wayback-машины Интернет-архива . Это показывает, как выглядела страница в прошлом. Вы можете выяснить, когда страницы были впервые опубликованы. Google и Интернет-архив сканируют и используют страницу вскоре после ее первой публикации.

Стивен Остермиллер
источник
1
Ваш первый вариант даст точный результат для всех URL? Я искал bing.com, как вы объяснили, но не получил первую проиндексированную дату bing.com. Извините, если я ошибаюсь?
Сатия Кумар
1
Это кажется точным, пока содержание на странице не изменилось. Google может сбросить эту дату, если страница будет перестроена. Моя домашняя страница указана как 1 февраля 2002 года, хотя внутренняя страница указана как 1 февраля 2001 года. За это время домашняя страница была переработана, тогда как внутренняя страница существенно не изменилась с 2001 года.
Стивен Остермиллер
@SathiyaKumar Bing.com дает мне дату 19 марта 2014 года , используя этот метод. Обратите внимание, что все, что не проиндексировано Google (через robots.txt или иным образом), очевидно, не будет показано таким образом.
Thebluefish
4

Не может быть никакого способа узнать, когда Google впервые проиндексировал произвольную веб-страницу - конечно, я не знаю ни одного способа сделать это. Вполне возможно, что Google просто не хранит эту информацию, поскольку нет никакой реальной причины, по которой им это нужно. Кроме того, даже если они хранят эту информацию, у них действительно нет особых причин делать ее доступной для третьих лиц.

(Если это ваша собственная страница, и у вас есть доступ к вашим старым журналам доступа к веб-серверу, это легко - просто выполните поиск в журналах для первого посещения Googlebot на этой странице. Но в противном случае наверняка не будет никакого способа узнать наверняка.)


В любом случае, метод, описанный Зистолоеном и Стивеном Остермиллером в их ответах, обычно не раскрывает дату, когда конкретный URL был впервые проиндексирован Google. Скорее, он показывает дату, когда Google считает, что контент по URL-адресу был опубликован или последний раз обновлялся, и часто основывается на более или менее надежных попытках Google «прослушать» даты из самого контента страницы.

В этом видео Google Мэтт Каттс кратко рассказывает о том, как выбираются эти даты. Для удобства я расшифровал соответствующий фрагмент видео (приблизительно с 2:09 до 2:22) ниже:

«... часто вы будете видеть дату, когда мы ее выводим, или когда мы впервые ее увидели, всякий раз, когда мы сканировали эту страницу, или если мы можем найти ее где-то на странице, и мы можем извлечь эту дату, вы» увидим это в самом начале фрагмента. "

Для таких страниц, как посты в блогах, вики-страницы или вопросы Stack Exchange, когда сайт, на котором запущено программное обеспечение, автоматически сообщает точную дату создания / изменения на самой странице, дата, сообщаемая Google, скорее всего, будет соответствовать ей. Для других типов страниц, однако, анализатор даты Google должен работать усерднее, и он не всегда понимает это правильно (что бы ни означало «правильное» в данном контексте).

В частности, эти даты в основном бесполезны для определения того, как давно страница была проиндексирована , по двум причинам:

  • Если страница была недавно изменена, и дата изменения отображается на видном месте, Google может выбрать ее как «дату» страницы, даже если изменение было совершенно тривиальным.

    Например, эта довольно старая вики-страница (которую archive.org впервые проиндексировал в 2003 году ) в настоящее время помечена датами Google как 10 ноября 2014 года - дата ее последнего редактирования, как показано в нижней части страницы. Изменения, которые произошли в тот день? Просто удалите одну ссылку из нижней части страницы.

  • С другой стороны, Google, похоже, с радостью принимает очень старые «даты публикации», если они находят их на странице - даже те, которые предшествовали запуску World Wide Web .

    Например, эта страница на старом соревновании по программированию датируется Google 15 сентября 1986 года - фактически датой события, описанного на странице. Точно так же эта страница, на которой документирована студенческая забастовка в 1970 году , датирована Google 10 мая 1970 года (дата одного из отсканированных документов на странице), и, что еще более нелепо, эта страница руководства Linux датирована 4 ноября. , 1989 (случайный пример даты, использованной на странице).

    Вы можете найти еще много таких примеров, используя пользовательский поиск по диапазону дат, описанный Стивеном и Цистолоеном, но установив верхний предел диапазона, скажем, 6 августа 1991 года .

Илмари Каронен
источник
Ну, в своем ответе вы в основном возражали против ответов Стивена и Цистолоена, но я не нашел правильного ответа на вопрос ОП "Как мне найти, когда URL был впервые проиндексирован Google?" в твоем ответе !!
Сатия Кумар
Может не быть никакого ответа, кроме того, что «ты не можешь» или «никто не знает как». Но вы правы, позвольте мне отредактировать это в своем ответе.
Илмари Каронен
@llmariKaronen +1 за редактирование и добавление ответа на актуальный вопрос ОП.
Сатия Кумар