Существуют ли механизмы контроля того, что архивы интернет-архива на сайте? Я знаю, чтобы запретить все страницы, которые я мог бы добавить :
User-agent: ia_archiver
Disallow: /
Могу ли я сообщить боту, что я хочу, чтобы он сканировал мой сайт один раз в месяц или раз в год?
У меня есть сайт / страницы, которые не / не архивируются должным образом из-за нехватки ресурсов. Есть ли способ сообщить боту интернет-архива, какие ресурсы ему нужны, если он собирается захватить сайт?
cache
internet-archive
artlung
источник
источник
Ответы:
Примечание : этот ответ становится все более устаревшим.
Крупнейшим вкладчиком в интернет-коллекцию Интернет-архива стала Alexa Internet. Материал, который Alexa сканирует для своих целей, был передан в дар IA через несколько месяцев. Добавление правила запрета, упомянутого в вопросе, не влияет на эти обходы, но Wayback будет «задним числом» соблюдать их (при отказе в доступе материал все равно будет в архиве - вы должны исключить робота Алекса, если вы действительно хотите не пустить свой материал интернет-архива).
Могут быть способы повлиять на сканирование Алексы, но я не знаком с этим.
С тех пор как IA разработал свой собственный сканер (Heritrix), они начали выполнять свои собственные обходы, но они, как правило, являются целевыми обходами (они выполняют выборочные обходы для Библиотеки Конгресса и делали национальные обходы для Франции и Австралии и т. Д.). Они не участвуют в устойчивых сканированиях мирового масштаба, которые проводят Google и Alexa. Крупнейшим сканированием IA был специальный проект для сканирования 2 миллиардов страниц.
Поскольку эти обходы выполняются по расписанию, которое определяется конкретными факторами проекта, вы не можете влиять на то, как часто они посещают ваш сайт или посещают ли они ваш сайт.
Единственный способ напрямую повлиять на то, как и когда IA сканирует ваш сайт, - это использовать их сервис Archive-It . Этот сервис позволяет указывать пользовательские обходы. Полученные данные будут (в конечном итоге) включены в веб-коллекцию IA. Это, однако, платная услуга подписки.
источник
Большинство поисковых систем поддерживают директиву Crawl-delay, но я не знаю, поддерживает ли IA. Вы можете попробовать это хотя:
Это ограничит задержку между запросами до 3600 секунд (т.е. 1 час) или ~ 700 запросов в месяц.
Я не думаю, что № 2 возможен - бот IA забирает активы по мере необходимости. Он может иметь ограничение на размер файла, чтобы не использовать слишком много памяти.
источник