Я хочу получить все файлы для данного сайта на archive.org. Причины могут включать в себя:
- оригинальный автор не заархивировал свой собственный сайт и теперь он не в сети, я хочу сделать из него публичный кеш
- Я оригинальный автор какого-то сайта и потерял часть контента. Я хочу восстановить это
- ...
Как мне это сделать ?
Принимая во внимание тот факт, что машина обратной передачи archive.org является очень особенной: ссылки на веб-страницы указывают не на сам архив, а на веб-страницу, которая может отсутствовать. JavaScript используется на стороне клиента для обновления ссылок, но такой трюк, как рекурсивный wget, не сработает.
gem install wayback_machine_downloader
. Запустите wayback_machine_downloader, указав в качестве параметра базовый URL-адрес веб-сайта, который вы хотите получить:wayback_machine_downloader http://example.com
Дополнительная информация: github.com/hartator/wayback_machine_downloaderОтветы:
Я пробовал разные способы загрузки сайта и, наконец, нашел загрузчик машин обратного хода, о котором Хартатор упоминал ранее (так что все отзывы идут к нему, пожалуйста), но я просто не заметил его комментарий к вопросу. Чтобы сэкономить ваше время, я решил добавить гем wayback_machine_downloader в качестве отдельного ответа.
На сайте http://www.archiveteam.org/index.php?title=Restoring перечислены следующие способы загрузки с archive.org:
источник
Это можно сделать с помощью сценария оболочки bash в сочетании с
wget
.Идея состоит в том, чтобы использовать некоторые функции URL машины обратного хода:
http://web.archive.org/web/*/http://domain/*
перечислит все сохраненные страницы изhttp://domain/
рекурсивно. Его можно использовать для создания индекса страниц для загрузки и избежать эвристики для обнаружения ссылок на веб-страницах. Для каждой ссылки есть также дата первой версии и последней версии.http://web.archive.org/web/YYYYMMDDhhmmss*/http://domain/page
Перечислю все версииhttp://domain/page
за год ГГГГ. На этой странице можно найти конкретные ссылки на версии (с точной отметкой времени)http://web.archive.org/web/YYYYMMDDhhmmssid_/http://domain/page
вернет неизмененную страницуhttp://domain/page
в указанное время. Обратите внимание на токен id_ .Это основы для создания скрипта для загрузки всего из заданного домена.
источник
http://web.archive.org/web/19981202230410/http://www.google.com/
) и добавитьid_
в конце «числа даты». Тогда вы получите что-то вродеhttp://web.archive.org/web/19981202230410id_/http://www.google.com/
.Для этой цели специально разработан инструмент Warrick: https://code.google.com/p/warrick/.
Он основан на протоколе Memento.
источник
Вы можете сделать это легко с
wget
.Где
ROOT
находится корневой URL веб-сайта иSTART
начальный URL. Например:Обратите внимание, что вы должны обойти рамку переноса веб-архива для
START
URL. В большинстве браузеров вы можете щелкнуть правой кнопкой мыши на странице и выбрать «Показать только этот кадр».источник