У меня есть веб-сайт, который я не хочу индексировать поисковыми системами, но я хочу сохранить его навеки на сайте archive.org. Итак, мой robots.txt
начинается с этого:
User-agent: *
Disallow: /
Сегодня, согласно archive.org, я должен добавить следующее в мои, robots.txt
чтобы позволить их ботам:
User-agent: ia_archiver
Disallow:
Но я уже сделал то, что они указали пару лет назад, по крайней мере, я добавил следующее:
User-agent: archive.org_bot
Disallow:
Тогда есть другой источник, утверждающий, что вы должны добавить два выше Disallow
s плюс еще один:
User-agent: ia_archiver-web.archive.org
Disallow:
Обратите внимание, что вам нужно поставить, Disallow: /
если вы не хотите, чтобы бот архивировал ваш сайт.
Произошли ли изменения с ботом IA? Если да, то когда?
Какой рекомендуемый способ? Должен ли я сейчас разрешить все три и надеяться, что IA не изменит имя своего бота в будущем?
Ответы:
Обновление : Как отмечает @KevinFegan в комментариях, их документация изменилась. В приведенной ниже части описывается, как Интернет-архив обрабатывал это в прошлом (по крайней мере, в 2014 году).
Их FAQ Как я могу исключить страницы моего сайта из Wayback Machine? ссылается на удаление документов с машины Wayback , которая документирует, что их бот называется
ia_archiver
.Так что эта запись должна позволять их боту сканировать весь ваш сайт:
источник
*
Группа соответствует только тогда , когда ни одна другая группа не соответствует.Здесь действительно есть 2 вопроса:
robots.txt
на вашем сайте запрещать (блокировать) обратный путь от сканирования вашего сайта.Для пункта № 1:
Как уже говорили другие, правильная запись для robots.txt:
Имейте в виду, что Wayback может потребоваться некоторое время (возможно, довольно долгое время), чтобы заметить любые изменения, внесенные вами в robots.txt.
Для того, чтобы проверить , если
robots.txt
на вашем сайте будет позволять Вайбак сканировать ваш сайт:"Browse History"
кнопку."Save Page"
кнопку.На этом этапе вы должны увидеть 1 из 3 вещей:
Теперь для пункта № 2:
Будет ли Wayback сканировать ваш сайт?
То, что вы разрешаете Wayback сканировать ваш сайт, не означает, что они (когда-либо) будут сканировать ваш сайт.
В соответствии с Wayback FAQ (акцент добавлен):
Обновление: 09 мая 2017 года
Другие оставили комментарии / ответы, указывающие, что Archive.org больше не уважает robots.txt. Возможно, это «незавершенное производство», и в конечном итоге оно будет иметь место, но я еще не видел этого нового поведения.
Случай для этого , кажется, исходит из этой статьи: Robots.txt: robots.txt : предсмертная записка по
archiveteam.org
. Хотя на этой странице мало что можно сказать о Robots.txt, но нигде не упоминается, что Archive.org больше не будет чтить robots.txt.Также следует отметить, что эта статья размещена на сайте
archiveteam.org
, который, безусловно, нетarchive.org
, и я не уверен, что между (archive.org
и ) есть (официальные) отношенияarchiveteam.org
.Фактически, эта страница об Archive Team , кажется, объявляет различие между и (выделение добавлено):
archive.org
archive.org
archiveteam.org
В любом случае я решил попробовать и обнаружил, что, по крайней мере, в это время Archive.org ВСЕ ЕЩЕ чтит robots.txt:
archive.org
означает, что «Страница не может быть отображена из-за robots.txt».Итак, в настоящее время я остаюсь неуверенным, но я бы хотел оказаться неправым ... было бы здорово, если бы это было правдой.
источник
Обновление 2017
Архив бот теперь не заботится о вашем robots.txt.
Если вы действительно хотите заблокировать это, отправьте им электронное письмо в соответствии с этой страницей или заблокируйте их IP-адрес через htaccess.
источник
Запись robots.txt ia_archiver Disallow (с "/") должна подойти для описываемой вами необходимости ("сохранить на вечность", но пока не публично).
Я только что сделал быстрый тест, комментируя запись ia_archiver Disallow для сайта, на котором она была как минимум последние 10 лет. Затем я посмотрел сайт на archive.org/web, и он обнаружил захваты, которые он собрал в 2007, 2008, 2009, 2011, 2012, 2013, 2014, 2015, 2016 и 2017 годах! Это означает, что Archive.org никогда строго не соблюдал то, что другие считали заявлением «не архивировать» в течение этих лет, а просто не выставлял архивные копии.
источник
источник
Я попробовал
robots.txt
метод, и он не работал. Поэтому я связался с сайтом по электронной почте info@archive.org:И я получил следующий ответ:
Я создал
wayback-removal-request.html
со следующим контентом (даже без действительного HTML):Загрузил его и ответил на их электронную почту с URL-адресом, с которого была доступна веб-страница, и позже я получил следующий ответ:
Когда я проверил пару часов спустя, мой сайт был удален.
источник