Контроль над интернет-архивом кроме просто «Запретить /»?

13

Существуют ли механизмы контроля того, что архивы интернет-архива на сайте? Я знаю, чтобы запретить все страницы, которые я мог бы добавить :

User-agent: ia_archiver
Disallow: /
  1. Могу ли я сообщить боту, что я хочу, чтобы он сканировал мой сайт один раз в месяц или раз в год?

  2. У меня есть сайт / страницы, которые не / не архивируются должным образом из-за нехватки ресурсов. Есть ли способ сообщить боту интернет-архива, какие ресурсы ему нужны, если он собирается захватить сайт?

artlung
источник
Я также очень заинтересован в ответах на это. +1 :)
Тим Пост

Ответы:

8

Примечание : этот ответ становится все более устаревшим.

Крупнейшим вкладчиком в интернет-коллекцию Интернет-архива стала Alexa Internet. Материал, который Alexa сканирует для своих целей, был передан в дар IA через несколько месяцев. Добавление правила запрета, упомянутого в вопросе, не влияет на эти обходы, но Wayback будет «задним числом» соблюдать их (при отказе в доступе материал все равно будет в архиве - вы должны исключить робота Алекса, если вы действительно хотите не пустить свой материал интернет-архива).

Могут быть способы повлиять на сканирование Алексы, но я не знаком с этим.

С тех пор как IA разработал свой собственный сканер (Heritrix), они начали выполнять свои собственные обходы, но они, как правило, являются целевыми обходами (они выполняют выборочные обходы для Библиотеки Конгресса и делали национальные обходы для Франции и Австралии и т. Д.). Они не участвуют в устойчивых сканированиях мирового масштаба, которые проводят Google и Alexa. Крупнейшим сканированием IA был специальный проект для сканирования 2 миллиардов страниц.

Поскольку эти обходы выполняются по расписанию, которое определяется конкретными факторами проекта, вы не можете влиять на то, как часто они посещают ваш сайт или посещают ли они ваш сайт.

Единственный способ напрямую повлиять на то, как и когда IA сканирует ваш сайт, - это использовать их сервис Archive-It . Этот сервис позволяет указывать пользовательские обходы. Полученные данные будут (в конечном итоге) включены в веб-коллекцию IA. Это, однако, платная услуга подписки.

Kris
источник
3
Ваш комментарий о том, что IA выполнял свои собственные обходы, был верным в 2011 году, и больше не верен в 2016 году: сейчас мы много сканируем самостоятельно.
Грег Линдал
@GregLindahl Вы можете добавить обновленный ответ на этот вопрос
Стивен Остермиллер
2

Большинство поисковых систем поддерживают директиву Crawl-delay, но я не знаю, поддерживает ли IA. Вы можете попробовать это хотя:

User-agent: ia_archiver
Crawl-delay: 3600

Это ограничит задержку между запросами до 3600 секунд (т.е. 1 час) или ~ 700 запросов в месяц.

Я не думаю, что № 2 возможен - бот IA забирает активы по мере необходимости. Он может иметь ограничение на размер файла, чтобы не использовать слишком много памяти.

DisgruntledGoat
источник
@ Kris: установка задержки сканирования должна делать это по доверенности. Если у вас есть 30 страниц, и вы указываете сканеру, что его следует нажимать только один раз в день, вероятно, что каждая страница обновляется примерно каждые 30 дней. (Очевидно, это не гарантия.)
Рассерженная шлюха
Теоретически да, однако, если вы делаете архивное сканирование, вы никогда не будете подчиняться такому правилу. Сканирование сайта документом в день означает, что вы не можете получить хороший захват сайта в определенный момент времени. Если этот атрибут должен соблюдаться, он будет иметь верхний предел 1-5 минут при любом архивном сканировании.
Крис
Ах, хорошо, я понимаю вашу точку зрения.
Рассерженная шлюха
Я только что посмотрел на недавно выпущенную Heritrix 3 и вижу, что они добавили обработку директивы crawl-delay, но по умолчанию она соблюдает максимум 300 секунд (5 минут).
Крис