Я имею в виду загрузку каждой страницы, доступной с Wayback Machine, в течение определенного периода времени и интервала. Например, я хочу загрузить каждую страницу, доступную по каждому дню с сайта Nature.com с января 2012 года по декабрь 2012 года. (Не совсем то, что я хочу сделать, но это достаточно близко - и дает хороший пример.)
К сожалению, wget не будет работать из-за уникальной природы механизма Wayback.
Похоже, такие инструменты, как Wayback Machine downloader, загружают только самую последнюю версию страницы.
Взаимодействие с IA API кажется жизнеспособным маршрутом, но я не уверен, как это будет работать.
Благодарность!
Ответы:
То , как
wayback
URL , отформатированные следующим образом :Здесь
BASEURL
обычноhttp://web.archive.org/web
(я говорю обычно, поскольку я не уверен, что это единственный BASEURL)TARGET
говорит само за себя (в вашем случаеhttp://nature.com
, или какой-то похожий URL)TIMESTAMP
этоYYYYmmddHHMMss
когда захват был сделан (в UTC):YYYY
Годmm
: Месяц (2 цифры - от 01 до 12)dd
: День месяца (2 цифры - от 01 до 31)HH
: Час (2 цифры - от 00 до 23)MM
: Минуты (2 цифры - от 00 до 59)ss
: Вторая (2 цифры - от 00 до 59)В случае, если вы запрашиваете время захвата, которое не существует, машина обратного вызова перенаправляет на ближайший захват для этого URL, будь то в будущем или в прошлом.
Вы можете использовать эту функцию для получения каждого ежедневного URL, используя
curl -I
(HTTPHEAD
), чтобы получить набор URL:Это дает вам URL-адреса, которые ближе всего к полудню каждого дня 2012 года. Просто удалите дубликаты и и загрузите страницы.
Примечание. Сценарий, приведенный выше, вероятно, можно значительно улучшить, чтобы перейти вперед в случае, если
REDIRECT
для URL-адреса будет более 1 дня в будущем, но тогда потребуется деконструкция возвращаемого URL-адреса и корректировкаSTART
до правильного значения даты.источник
wget
или любой другойpage-getter
с правильными параметрами (обратите внимание на-I
вариантcurl
).На Github есть рубиновый камень: https://github.com/hartator/wayback-machine-downloader
источник