Этот вопрос был вдохновлен https://superuser.com/questions/374386/how-to-store-and-preserve-lots-of-data . Были и другие подобные вопросы, но ни с одним из тех же критериев.
Это два вопроса в одном.
- Как вы храните финансовые / критические записи, которые должны пережить что-либо, кроме пожара, и должны быть доступны в течение десятилетий?
- Допустим, я хочу хранить семейные фото / видео и хочу, чтобы люди могли найти их в хранилище через 100 лет и все еще иметь возможность использовать их. Как это будет сделано?
критерии
- Долгосрочный означает 30+ лет гарантировано . 100+ лет в среднем. [Если это не практично, используйте ближайшее решение]
- Большой объем означает пару терабайт.
- Ответами могут быть «бескомпромиссные / промышленные» решения или практические решения для домашнего офиса / малого бизнеса.
- Медиа не будут активны в течение времени. (т.е. если вы предложите жесткие диски, они не будут вращаться).
- Кроме того, нет необходимости читать эти архивы. Они там для чрезвычайных или "для будущих поколений" целей.
- Не требует обслуживания (если это вообще возможно).
Мои мысли:
- CD-R / DVD-R доказали, что даже в краткосрочной перспективе они являются ужасным средством резервного копирования. Они кажутся очень хрупкими и, по-видимому, очень быстро теряют свои данные, даже когда находятся в первозданном состоянии.
- Я не могу не думать, что хранить данные о паре жестких дисков емкостью 1 ТБ, а затем ожидать, что они правильно раскрутятся десять или два года спустя, будет ужасной идеей. Я ошибаюсь?
- Промышленные стримеры кажутся жизнеспособным вариантом?
Ответы:
Бумага
За исключением архивных чернил на архивной бумаге в запечатанном хранилище, ни один из существующих носителей не может прослужить в среднем 100 лет без какого-либо обслуживания.
Архивная бумага
Архивные чернила
Резервное хранилище
Торвальдс однажды сказал
Что говорит о том, что вы не должны полагаться на одну копию на одном носителе.
Не магнитный носитель?
http://www.zdnet.com/blog/perlow/the-bell-tolls-for-your-magnetic-media/9364?tag=content;siu-container
Неспециализированные системы
http://en.wikipedia.org/wiki/BBC_Domesday_Project#Preservation
Долгосрочное Личное хранение
http://www.zdnet.com/blog/storage/long-term-personal-data-storage/376
источник
Краткий ответ
Невозможно гарантировать длительный период из-за энтропии (также называемой смертью!). Цифровые данные разрушаются и умирают, как и любая другая вещь во вселенной. Но это можно замедлить.
В настоящее время не существует надежного и научно доказанного способа гарантировать более чем 30-летний архив холодных данных. Некоторые проекты стремятся сделать это, например, проект Rosetta Disks в музее Long Now , хотя они все еще очень дороги и имеют низкую плотность данных (около 50 МБ).
В то же время вы можете использовать научно доказанные эластичные оптические носители для холодного хранения, такие как диски Blu-ray типа HTL, например, Panasonic, или DVD + R архивного класса, такие как Verbatim Gold Archival, и хранить их в герметичных коробках в мягком месте (избегайте высокая температура) и вне света.
Также будьте резервными : сделайте несколько копий ваших данных (как минимум 4) и вычислите хэши, чтобы регулярно проверять, что все в порядке, и каждые несколько лет вы должны переписывать свои данные на новые диски. Кроме того, используйте много исправляющих ошибки кодов , они позволят вам восстановить ваши поврежденные данные!
Длинный ответ
Почему данные повреждены со временем? Ответ заключается в одном слове: энтропия . Это одна из основных и неизбежных сил вселенной, которая заставляет системы становиться все менее и менее упорядоченными во времени. Повреждение данных - это как раз и есть беспорядок в порядке следования битов. Другими словами, Вселенная ненавидит ваши данные .
Борьба с энтропией - это то же самое, что борьба со смертью. Но вы можете найти способы замедлить смерть, так же, как вы можете замедлить энтропию. Вы также можете обмануть энтропию, исправляя повреждения (другими словами: вы не можете остановить повреждения, но вы можете исправить их, если вы приняли меры заранее!). Как и в случае с жизнью и смертью, здесь нет волшебной палочки и нет единого решения для всех, а лучшие решения требуют от вас непосредственного участия в цифровом хранении ваших данных. И даже если вы все делаете правильно, вы не гарантируете безопасность своих данных, вы только максимизируете свои шансы.
Теперь для хороших новостей: теперь есть довольно эффективные способы хранения ваших данных, если вы сочетаете в себе качественные носители данных и хорошие стратегии архивирования / хранения данных : вам следует спланировать неудачу .
Каковы хорошие стратегии курирования? Давайте разберемся одно: большая часть информации, которую вы найдете, будет о резервных копиях, а не об архивации. Проблема в том, что большинство людей передаст свои знания о стратегиях резервного копирования в архив, и, таким образом, в настоящее время многие из мифов стали широко распространенными. Действительно, хранение данных в течение нескольких лет (резервное копирование) и хранение данных в течение как можно более длительного периода времени, охватывающего как минимум десятилетия (архивирование), являются совершенно разными целями и, следовательно, требуют различных инструментов и стратегий.
К счастью, исследований и научных результатов достаточно много, поэтому я советую ссылаться на эти научные статьи, а не на форумы или журналы. Здесь я подведу некоторые из моих чтений.
Кроме того, будьте осторожны с претензиями и независимыми научными исследованиями, утверждая, что тот или иной носитель информации идеален. Вспомните знаменитый проект BBC Domesday: «Цифровая книга Domesday длится 15 лет, а не 1000» . Всегда перепроверяйте исследования с действительно независимыми документами, и если их нет, всегда предполагайте, что носитель не подходит для архивирования.
Давайте уточним, что вы ищете (из вашего вопроса):
Долгосрочное архивирование : вы хотите хранить копии ваших разумных, невоспроизводимых «личных» данных. Архивирование принципиально отличается от резервного копирования , что также объясняется здесь : резервные копии предназначены для динамических технических данных, которые регулярно обновляются и, следовательно, должны обновляться в резервные копии (т. Е. ОС, макет рабочих папок и т. Д.), Тогда как архивы представляют собой статические данные, которые Скорее всего, вы будете писать только один раз и время от времени читать . Архивы для внутренних данных , как правило, личные.
Холодное хранение : вы хотите максимально избежать обслуживания ваших архивных данных. Это БОЛЬШОЕ ограничение, поскольку оно означает, что носитель должен использовать компоненты и методологию письма, которые остаются стабильными в течение очень долгого времени, без каких-либо манипуляций с вашей стороны и без необходимости какого-либо подключения к компьютеру или электроснабжению.
Чтобы упростить наш анализ, давайте сначала изучим решения для хранения в холодильнике, а затем долгосрочные стратегии архивирования.
Носители холодного хранения
Выше мы определили, каким должен быть хороший холодный носитель: он должен хранить данные в течение длительного времени без каких-либо манипуляций (вот почему он называется «холодным»: вы можете просто хранить его в шкафу, и вам не нужно подключать его к компьютер для хранения данных).
Бумага может показаться самым устойчивым средством хранения на земле, потому что мы часто находим очень старую рукопись древних времен Однако бумага страдает от основных недостатков: во-первых, плотность данных очень низкая (не может хранить более ~ 100 КБ на бумаге, даже с крошечными символами и компьютерными инструментами), и со временем она ухудшается без какого-либо способа ее мониторинга: бумага так же, как жесткие диски, страдают от тихой коррупции. Но в то время как вы можете отслеживать бесшумные искажения на цифровых данных, вы не можете на бумаге. Например, вы не можете гарантировать, что изображение сохранит те же цвета только в течение десятилетия: цвета будут ухудшаться, и у вас нет возможности найти первоначальные цвета. Конечно, вы можете курировать ваши фотографии, если вы профессионал в восстановлении изображений, но это занимает много времени, в то время как с цифровыми данными вы можете автоматизировать этот процесс курирования и восстановления.
Жесткие диски (HDD) будут известны к имеет среднюю продолжительность жизни от 3 до 8 лет: они не просто деградируют с течением времени, они гарантированы в конце концов умирает (т.е. недоступны). Следующие кривые показывают эту тенденцию для всех жестких дисков умереть с ошеломляющей скоростью:
Кривая ванны, показывающая эволюцию частоты отказов жесткого диска с учетом типа ошибки (также применима к любому устройству):
Кривая, показывающая частоту отказов жесткого диска, объединены все типы ошибок:
Источник: Backblaze
Вы можете видеть, что существует 3 типа жестких дисков относительно их отказа: быстро умирающие (например, производственная ошибка, плохое качество жестких дисков, поломка головки и т. Д.), С постоянной скоростью умирания (хорошее производство, они умирают для разных " нормальные «причины», это относится к большинству жестких дисков) и, наконец, надежные, которые живут немного дольше, чем большинство жестких дисков, и в конечном итоге умирают вскоре после «обычных» (например: удачные жесткие диски, не слишком часто используемые, идеальные условия окружающей среды и т.д ..). Таким образом, вам гарантировано, что ваш жесткий диск умрет.
Почему жесткие диски умирают так часто? Я имею в виду, что данные записаны на магнитном диске, и магнитное поле может длиться десятилетия, прежде чем исчезнет. Причина, по которой они умирают, заключается в том, что носитель данных (магнитный диск) и считывающее оборудование (электронная плата + вращающаяся головка) связаны между собой : их нельзя разъединить, вы не можете просто извлечь магнитный диск и прочитать его с другой головкой, потому что сначала электронная плата (которая преобразует физические данные в цифровую) различна почти для каждого жесткого диска (даже той же марки и эталона, это зависит от оригинальной фабрики), а внутренний механизм с вращающейся головкой настолько сложен, что в настоящее время это невозможно для человека идеально разместить вращающуюся головку на магнитных дисках, не убивая их.
Кроме того, известно, что со временем HDD размагничиваются, если не используются (включая SSD). Таким образом, вы не можете просто хранить данные на жестком диске, хранить их в шкафу и думать, что они будут хранить данные без какого-либо электрического соединения: вам необходимо подключать жесткий диск к источнику электропитания не реже одного раза в год или в течение нескольких лет . Таким образом, жесткие диски явно не подходят для холодного хранения.
Магнитные ленты : они часто описываются как доступ к резервным копиям, и как расширение для архивирования. Проблема с магнитными лентами заключается в том, что они ОЧЕНЬ чувствительны: частицы магнитного оксида могут быть легко испорчены солнцем, водой, воздухом, царапинами, размагничены временем или любым электромагнитным устройством или просто упадут со временем, или будут напечатаны . Вот почему они обычно используются только в центрах обработки данных профессионалами. Кроме того, никогда не было доказано, что они могут хранить данные более десяти лет. Итак, почему их часто советуют делать резервные копии? Поскольку раньше они были дешевыми: в те времена магнитные ленты стоили в 10-100 раз дешевле, чем жесткие диски, а жесткие диски были гораздо менее стабильными, чем сейчас. Поэтому магнитные ленты рекомендуются в первую очередь для резервного копирования из-за экономической эффективностиНе из-за отказоустойчивости, которая нас больше всего интересует, когда дело доходит до архивирования данных.
Карты CompactFlash и Secure Digital (SD), как известно, довольно крепкие и надежные, способны выдерживать катастрофические условия .
Однако, как и любой другой магнитный носитель, он использует электрическое поле для сохранения данных, и, таким образом, если на карте не хватает сока, данные могут быть полностью потеряны. Таким образом, не идеально подходит для холодного хранения (так как вам иногда нужно перезаписывать все данные на карте, чтобы обновить электрическое поле), но это может быть хорошим средством для резервного копирования и краткосрочного или среднесрочного архивирования.
Оптические носители: Оптические носители представляют собой класс носителей данных, полагающихся на лазер для чтения данных, таких как CD, DVD или Blu-ray (BD). Это можно рассматривать как эволюцию бумаги, но мы записываем данные в настолько крошечном размере, что нам нужен был более точный и упругий материал, чем бумага, и оптические диски - это просто так. Двумя большими преимуществами оптических носителей является то, что носитель данных отделен от считывающего оборудования (т. Е. Если ваш DVD-ридер выходит из строя, вы всегда можете купить другой для чтения вашего диска) и что он основан на лазере, что делает его универсальным и будущее (то есть, если вы знаете, как сделать лазер, вы всегда можете настроить его так, чтобы он считывал биты с оптического диска путем эмуляции, как это делал CAMILEON для проекта BBC Domesday ).
Как и любая технология, новые итерации предлагают не только большую плотность (хранилище), но и лучшую коррекцию ошибок и лучшую устойчивость к разрушению окружающей среды (не всегда, но в целом верно). Первые дебаты о надежности DVD были между DVD-R и DVD + R, и даже если DVD-R все еще широко распространены в наши дни, DVD + R признан более надежным и точным . В настоящее время существуют DVD-диски архивного класса, специально предназначенные для холодного хранения, в которых утверждается, что они могут выдерживать не менее ~ 20 лет без какого-либо обслуживания:
С LinuxTech.net .
Кроме того, некоторые компании, специализирующиеся на очень долгосрочном архивировании DVD-дисков, активно продают их, например, M-Disc от Millenniata или DataTresorDisc, утверждая, что они могут хранить данные более 1000 лет, и проверены некоторыми (независимыми) исследованиями (из 2009) среди менее научных других .
Все это кажется очень многообещающим! К сожалению, независимых научных исследований недостаточно для подтверждения этих утверждений, и немногие из них не столь восторжены:
Влажность (относительная влажность 80%) и температура (80 ° C) ускоряли старение на нескольких DVD-дисках в течение 2000 часов (около 83 дней) теста с регулярной проверкой читаемости данных:
Перевод с французского учреждения архивирования цифровых данных (Archives de France), исследование с 2012 года.
Первый график показывает DVD с медленным развитием деградации. Второй DVD с кривыми быстрой деградации. И третий - для специальных «очень долгосрочных» DVD, таких как M-Disc и DataTresorDisc. Как мы видим, их производительность не совсем соответствует заявленным требованиям, будучи ниже или на уровне стандартных DVD-архивов!
Однако неорганические оптические диски, такие как M-Disc и DataTresorDisc, получают одно преимущество: они совершенно нечувствительны к деградации света:
Ускоренное старение с использованием света (750 Вт / м²) в течение 240 часов:
Это отличные результаты, но DVD-диск архивного уровня, такой как Verbatim Gold Archival, также достигает той же производительности, и, кроме того, свет является наиболее контролируемым параметром для объекта: довольно легко поместить DVD в закрытый ящик или шкаф, и, таким образом, устранение любого возможного воздействия света вообще. Было бы гораздо полезнее получить DVD, который очень устойчив к температуре и влажности, чем свет.
Эта же исследовательская группа также изучила рынок Blu-ray, чтобы узнать, будет ли какой-либо бренд с хорошим средним значением для длительного хранения в холодильнике. Вот их вывод:
Влажность и температура ускорили старение на нескольких марках Blu-ray при тех же параметрах, что и для DVD:
Легкое ускоренное старение на нескольких брендах BluRays, те же параметры:
Перевод с этого исследования Archives de France, 2012.
Два резюме всех результатов (на французском) здесь и здесь .
В общем, лучший диск Blu-ray (от Panasonic) показал себя так же, как лучший DVD-диск архивного класса в тесте влажности + температуры, но при этом практически не чувствителен к свету! И этот диск Blu-ray даже не архивный класс. Кроме того, диски Blu-ray используют улучшенный код с исправлением ошибок, чем DVD (сами они используют расширенную версию относительно компакт-дисков), что еще больше минимизирует риск потери данных. Таким образом, кажется, что некоторые диски BluRay могут быть очень хорошим выбором для холодного хранения.
И действительно, некоторые компании начинают работать над архивными Blu-ray дисками высокой плотности, такими как Panasonic и Sony, объявляя, что они смогут предложить от 300 ГБ до 1 ТБ хранилища со средним сроком службы 50 лет. Кроме того, крупные компании обращаются к оптическим носителям для холодного хранения (потому что они потребляют намного меньше ресурсов, поскольку их можно хранить в холодильнике без какого-либо электропитания), например, Facebook, который разработал роботизированную систему для использования дисков Blu-ray как «холодных» хранилище " для данных их системы редко получают доступ.
Архивная инициатива «Длинный сейчас»: есть и другие интересные идеи, такие как проект « Розеттский диск» музея «Длинный сейчас» , который представляет собой проект написания микроскопически масштабированных страниц Бытия на всех языках на Земле, на которые Бытие было переведено. Это отличный проект, который первым предлагает среду, которая позволяет хранить 50 МБ для действительно очень длительного холодного хранения (так как оно написано на углероде), и с доступом на будущее, так как вам нужен только увеличитель для доступа к данных (без каких-либо странных спецификаций формата или технологических проблем, таких как фиолетовый луч Blu-ray, просто нужна лупа!). Тем не менее, они все еще сделаны вручную и, таким образом, оцениваются примерно в 20 тысяч долларов, что, по-моему, слишком много для схемы личного архивирования.
Интернет-решения: Еще один способ хранения ваших данных - через Интернет. Тем не менее, решения для облачного резервного копирования не очень подходят, потому что первостепенное значение для компаний, занимающихся облачным хостингом, может не хватить, если вы захотите сохранить свои данные. Другие причины включают в себя тот факт, что резервное копирование ужасно медленно (так как оно передается через Интернет), и большинство провайдеров требуют, чтобы файлы также существовали в вашей системе, чтобы поддерживать их в оперативном режиме. Например, и CrashPlan, и Backblaze будут безвозвратно удалять файлы, которые хотя бы один раз не были видны на вашем компьютере за последние 30 дней, поэтому, если вы хотите загружать резервные данные, которые хранятся только на внешних жестких дисках, вам придется подключить USB HDD, по крайней мере, один раз в месяц и синхронизировать с облаком, чтобы сбросить обратный отсчет. Тем не мение, некоторые облачные сервисы предлагают хранить ваши файлы бесконечно (если вы, конечно, платите) без обратного отсчета, например, SpiderOak. Поэтому будьте очень осторожны с условиями и использованием выбранного вами решения для резервного копирования на основе облака.
Альтернативой поставщикам облачного резервного копирования является аренда собственного частного сервера в режиме онлайн и, если возможно, выберите один из них с автоматическим зеркалированием / резервным копированием ваших данных в случае сбоя оборудования на их стороне (некоторые даже гарантируют вам защиту от потери данных в своих контрактах). , но конечно дороже). Это отличное решение, во-первых, потому что вы по-прежнему владеете своими данными, а во-вторых, потому что вам не придется управлять сбоями оборудования, это ответственность вашего хоста. И если однажды ваш хост выйдет из бизнеса, вы все равно сможете вернуть свои данные (выберите серьезный хост, чтобы они не закрывались в течение ночи, а уведомляли вас заранее, возможно, вы можете попросить включить это в контракт), и переназначить в другом месте.
Если вы не хотите создавать собственный частный онлайн-сервер и можете себе это позволить, Amazon предлагает новую услугу архивирования данных, которая называется Glacier . Цель состоит в том, чтобы точно хранить ваши данные в долгосрочной перспективе: таким образом, хранение данных на Glacier обходится дорого, но еще дороже получить эти данные, поскольку эта служба предназначена для хранения данных вне досягаемости. , а не хранить данные, к которым вы хотите часто обращаться. Это означает, что данный сервис указывает цены как для записи данных, так и для их чтения. Эта услуга имеет огромную стоимость, но она может оказаться выгодной для некоторых ваших наиболее важных данных (например, если у вас есть несколько ОЧЕНЬ полезных текстовых файлов или изображений, поскольку данные такого типа обычно имеют небольшой размер, не будет стоить вам очень дорого, чтобы хранить в леднике).
Недостатки холодного хранения : Однако в любом холодном хранилище есть большой недостаток: нет проверки целостности, потому что холодные носители НЕ МОГУТ автоматически проверять целостность данных (они могут просто реализовать схемы исправления ошибок, чтобы «залечить» немного повреждение после повреждения произошло, но его нельзя ни предотвратить, ни автоматически управлять!), потому что, в отличие от компьютера, отсутствует вычислительный блок для вычисления / журнализации / проверки и исправления файловой системы. Принимая во внимание, что с компьютером и несколькими блоками хранения вы можете автоматически проверять целостность ваших архивов и автоматически зеркалировать их на другое устройство, если это необходимо, если в архиве данных произошло некоторое повреждение (если у вас есть несколько копий одного и того же архива).
Долгосрочный архив
Даже при использовании наилучших доступных в настоящее время технологий цифровые данные могут храниться в холодильнике только в течение нескольких десятилетий (около 20 лет). Таким образом, в долгосрочной перспективе вы не можете просто полагаться на холодное хранилище: вам нужно настроить методологию для вашего процесса архивирования данных, чтобы гарантировать, что ваши данные могут быть получены в будущем (даже с технологическими изменениями), и что вы минимизируете риски потерять ваши данные. Другими словами, вам нужно стать цифровым куратором ваших данных, исправлять искажения, когда они происходят, и воссоздавать новые копии, когда это необходимо.
Здесь нет правил защиты от дурака, но вот несколько устоявшихся стратегий лечения , и в частности магический инструмент, который облегчит вашу работу:
Коды исправления ошибок : это волшебный инструмент, который сделает вашу жизнь проще и ваши данные безопаснее. Коды исправления ошибок (ECC) - это математическая конструкция, которая будет генерировать данные, которые можно использовать для восстановления ваших данных. Это более эффективно, потому что ECC могут восстанавливать намного больше ваших данных, используя намного меньше места для хранения, чем простая репликация (то есть, делая несколько копий ваших файлов), и они могут даже использоваться, чтобы проверить, имеет ли ваш файл какие-либо коррупция, и даже найти, где эти коррупции, На самом деле, это в точности применение принципа избыточности, но более умным способом, чем репликация. Этот метод широко используется в любой дальней связи, такой как 4G, WiMax и даже космическая связь НАСА. К сожалению, хотя ECC вездесущи в телекоммуникациях, они не занимаются восстановлением файлов, возможно потому, что это немного сложно. Тем не менее, доступно некоторое программное обеспечение, такое как хорошо известное (но уже старое) PAR2, DVD Disaster (которое предлагает добавить коды исправления ошибок на оптические диски) и pyFileFixity (которое я разрабатываю частично для преодоления ограничений и проблем PAR2). Существуют также файловые системы, которые дополнительно реализуют Reed-Solomon, такие как ZFS для Linux или ReFS для Windows, которые технически являются обобщением RAID5.
Регулярно проверяйте целостность ваших файлов: Хэшируйте свои файлы и проверяйте их время от времени (т.е. раз в год, но это зависит от среды хранения и условий окружающей среды). Когда вы видите, что ваши файлы пострадали от повреждения, пришло время восстановить с помощью сгенерированных вами ECC, если вы это сделали, и / или сделать новую свежую копию ваших данных на новом носителе. Проверка данных, исправление повреждений и создание новых свежих копий - это очень хороший цикл курирования, который обеспечит безопасность ваших данных. В частности, проверка очень важна, потому что копии ваших файлов могут быть незаметно повреждены, и если вы затем скопируете копии, которые были подделаны, вы получите полностью поврежденные файлы. Это еще более важно с холодными носителями, такими как оптические диски, которые НЕ МОГУТ автоматически проверять целостность данных (они уже реализуют ECC, чтобы немного зажить, но они не могут ни проверять, ни создавать новые свежие копии автоматически, это ваша работа!). Для отслеживания изменений файлов вы можете использовать скрипт rfigc.pypyFileFixity или другие инструменты UNIX, такие как md5deep . Вы также можете проверить состояние работоспособности некоторых носителей, таких как жесткие диски, с помощью таких инструментов, как Hard Drive Sentinel или smartmontools с открытым исходным кодом .
Храните свои архивные носители в разных местах (по крайней мере, с одной копией за пределами вашего дома!), Чтобы избежать реальных катастрофических событий, таких как наводнение или пожар. Например, один оптический диск на вашем рабочем месте или облачное резервное копирование может быть хорошей идеей для удовлетворения этого требования (даже если облачные провайдеры могут быть закрыты в любой момент, пока у вас есть другие копии, вы будете в безопасности. облачные провайдеры будут служить только как внешний архив в случае чрезвычайной ситуации).
Хранить в специальных контейнерах с контролируемыми параметрами окружающей среды : для оптических сред хранить вдали от света и в водонепроницаемой коробке, чтобы избежать влажности. Для жестких дисков и SD-карт храните их в антимагнитных гильзах, чтобы избежать остаточного электричества, которое может повлиять на работу накопителя. Вы также можете хранить в герметичной и водонепроницаемой сумке / коробке и хранить в морозильной камере: низкие температуры замедляют энтропию, и вы можете значительно продлить срок службы любого такого носителя (просто убедитесь, что вода победила). не входите внутрь, иначе ваш медиум быстро умрет).
Используйте качественное оборудование и проверяйте его заранее (например, когда вы покупаете SD-карту, протестируйте всю карту с помощью программного обеспечения, такого как HDD Scan, чтобы убедиться, что все в порядке, прежде чем записывать ваши данные). Это особенно важно для оптических приводов, потому что их качество может кардинально изменить качество записанных дисков, как продемонстрировано в исследовании Archives de France (плохой DVD-рекордер будет производить DVD-диски, которые прослужат намного меньше).
Тщательно выбирайте форматы файлов: не все форматы файлов устойчивы к повреждениям, некоторые даже явно слабые. Например, изображения .jpg могут быть полностью повреждены и нечитаемы, если подделать один или два байта. То же самое для 7zip архивов. Это смешно, поэтому будьте осторожны с форматом файлов, которые вы архивируете. Как правило, простой чистый текст лучше, но если вам нужно сжать, использовать не сплошной zip, а для изображений используйте JPEG2 (пока не с открытым исходным кодом ...). Больше информации и обзоров про цифровых кураторов здесь , здесь и здесь .
Храните вместе с вашими архивами данных все программное обеспечение и спецификации, необходимые для чтения данных. Помните, что спецификации быстро меняются, и поэтому в будущем ваши данные могут быть недоступны для чтения, даже если вы можете получить доступ к файлу. Таким образом, вы должны предпочесть форматы с открытым исходным кодом и программное обеспечение и хранить исходный код программы вместе с вашими данными, чтобы вы всегда могли адаптировать программу из исходного кода для запуска с новой ОС или компьютера.
Множество других методов и подходов доступно здесь , здесь и в различных частях Интернета.
Заключение
Я советую использовать то, что у вас есть, но всегда соблюдайте принцип избыточности (сделайте 4 копии!) И всегда регулярно проверяйте целостность (поэтому вам необходимо предварительно сгенерировать базу данных хэшей MD5 / SHA1 заранее) и создавать новые новые копии в случае коррупции. Если вы сделаете это, вы можете технически хранить ваши данные столько, сколько захотите, независимо от того, какой у вас носитель данных. Время между каждой проверкой зависит от надежности ваших носителей: если это дискета, проверяйте каждые 2 месяца, если это Blu-ray HTL, проверяйте каждые 2/3 года.
Теперь, в оптимальном варианте, я рекомендую для холодного хранения использовать диски Blu-ray HTL или DVD- диски архивного качества, которые хранятся в водонепроницаемых непрозрачных коробках и хранятся в свежем месте. Кроме того, вы можете использовать SD-карты и облачных провайдеров, таких как SpiderOak, для хранения избыточных копий ваших данных или даже жестких дисков, если они более доступны для вас.
Используйте много кодов , исправляющих ошибки , они спасут ваш день. Также вы можете сделать несколько копий этих файлов ECC (но несколько копий ваших данных важнее, чем несколько копий ECC, поскольку файлы ECC могут восстанавливаться самостоятельно!).
Все эти стратегии могут быть реализованы с использованием набора инструментов, которые я разрабатываю (с открытым исходным кодом): pyFileFixity . Этот инструмент был фактически запущен этим обсуждением, когда обнаружил, что не было бесплатного инструмента для полного управления исправлением файлов. Также, пожалуйста, обратитесь к readme и вики проекта для получения дополнительной информации о исправлении файлов и цифровой обработке.
В заключение, я действительно надеюсь, что на эту проблему будет поставлено больше НИОКР. Это серьезная проблема для нашего современного общества, когда все больше и больше данных оцифровывается, но без каких-либо гарантий, что эта масса информации просуществует более нескольких лет. Это очень удручает, и я действительно считаю, что этот вопрос должен быть поставлен намного дальше, чтобы конструкторы и компании стали маркетинговым ориентиром для создания устройств хранения, которые могли бы работать в будущем.
/ РЕДАКТИРОВАТЬ: читайте ниже для практической рутины курирования .
источник
Быстрое продолжение моего предыдущего ответа выше , оно будет сделано более кратким и расширенным за счет дополнительной (но не первостепенной важности) информации и ссылок, которые я не могу добавить в первом ответе из-за ограничений длины 30 КБ.
Поскольку долгосрочное архивирование - это процесс курирования, вот некоторые другие вещи, на которые вы, возможно, захотите обратить внимание, чтобы сделать ваш процесс более эффективным и потреблять меньше времени (и ресурсов):
Дедупликация : поскольку единственный способ обеспечить долгосрочное архивирование - это специально спроектированная избыточность, вы хотите избежать бесполезных избыточных данных (например, копий файлов, которые вы извлекли с вашего USB-ключа на архивный жесткий диск, но у вас уже есть готовая копия с вашего основного компьютера!). Нежелательные избыточные данные, которые обычно называют дубликатами, являются плохими, как по стоимости хранения (они занимают больше ресурсов хранения, но вам будет трудно найти их при необходимости), для вашего процесса (что, если у вас разные версии одного и того же файла? Как узнать, какая копия является правильной?) И за ваше время (это увеличит время передачи, когда вы синхронизируете резервную копию со всеми своими архивами). Вот почему профессиональные архивные службы обычно предлагают автоматическую дедупликацию: файлы, которые в точности похожи, получат тот же индекс, и они не будут занимать дополнительное место Вот что SpiderOak делает, например. Есть автоматизированные инструменты, которые вы можете использовать, и файловые системы ZFS (Linux) или ReFS (Windows) могут сделать это автоматически для вас.
Расстановка приоритетов / категоризация : как вы видите, долгосрочное архивирование - это длительный процесс, который необходимо регулярно проводить (для проверки работоспособности, синхронизации архивов между носителями, создания новых архивов на новых носителях для замены умирающих, восстановления файлов с использованием кодов, исправляющих ошибки). , и т.д.). Чтобы свести к минимуму затраты времени, попробуйте определить различные схемы защиты в зависимости от приоритета ваших данных на основе категорий., Идея заключается в том, что когда вы перемещаете данные своего компьютера на один из внешних жестких дисков, которые вы используете для долгосрочного архивирования, вы помещаете их непосредственно в одну папку, определяя приоритет резервного копирования: «неважно», «личное», «важное», «критическое» ». Затем вы можете определить различные стратегии резервного копирования для каждой папки: резервируйте полную защиту (например, резервное копирование на 3 жестких диска + облако + коды с исправлением ошибок + BluRays) только для наиболее важных данных, которые вы хотите сохранить на всю жизнь (критическая папка) затем средняя защита для «важных» данных (например, резервное копирование на 3 жестких диска + облако), а затем «личные» просто копируются как минимум на два внешних жестких диска, и «неважно» не получает копию (или, возможно, на один жесткий диск) диск, если синхронизация не слишком длинная ...). Как правило, вы увидите, что " это все то, что вы скачиваете из Интернета или различные файлы и носители, которые вам не нужны (например, программное обеспечение, игры и фильмы). Суть в том, что:чем больше файлов вы хотите сохранить в долгосрочном архиве, тем сложнее (и отнимает больше времени) это будет , поэтому постарайтесь свести к минимуму файлы, которые получают эту специальную обработку.
Метаданные - это критическое местоДаже при наличии хороших стратегий курирования обычно есть одна вещь, которая не защищена: метаданные. Метаданные включают в себя информацию о ваших файлах, например: дерево каталогов (да, это всего лишь несколько байтов, если вы потеряете это, вы получите ваши файлы в полном беспорядке!), Имя файла и расширение, метка времени (это может быть важно для вас) и т. д. Это может показаться не таким уж большим делом, но представьте себе следующее: что если завтра все ваши файлы (включая файлы, поставляемые с программным обеспечением и прочим) будут помещены в одну плоскую папку, без имени файла или расширение. Сможете ли вы восстановить нужные файлы из миллиардов файлов на вашем компьютере, проверяя их вручную? Не думайте, что это необычный сценарий, он может произойти так же легко, как если бы вы получили отключение питания или сбой в середине копии: записываемый раздел может стать полностью уничтоженным (печально известный тип RAW). Чтобы преодолеть эту проблему, вы должны быть готовы и подготовить свои данные для восстановления данных: чтобы сохранить метаданные, вы можете объединить файлы с их метаданными, используянетвердые архивы, такие как ZIP DEFLATE или DAR (но не tar). Некоторые файловые системы предлагают автоматическое резервирование метаданных, например DVDisaster (для оптических дисков) и ZFS / ReFS (для жестких дисков). Затем в случае сбоя метаданных вы можете попытаться восстановить разделы с помощью TestDisk или GetDataBack (разрешить частичное восстановление дерева каталогов) или ISOBuster (для оптических дисков), чтобы восстановить дерево каталогов и другие метаданные. В случае неудачи вы можете вернуться к очистке файлов с помощью PhotoRec: при этом будут извлечены все файлы, которые он распознает, но в полном беспорядке и без имени файла или отметки времени будут восстановлены только сами данные. Если вы заархивировали важные файлы, вы сможете восстановить метаданные внутри zip-файла (даже если сам zip-файл больше не содержит метаданных, по крайней мере, внутри файлов все равно будут храниться правильные метаданные). Тем не мение, вам придется вручную вручную проверять все файлы с файлами, что отнимает много времени. Чтобы защититься от этой возможности, вы можете заранее сгенерировать файл контрольной суммы целостности, используя pyFileFixity или PAR2, а затем использовать этот файл контрольной суммы целостности после очистки файла, чтобы автоматически распознавать и переименовывать файлы в зависимости от их содержимого (это единственный способ автоматизировать метафрагмирование файла восстановление данных, потому что файловая очистка может технически восстановить только контент, а не метаданные).
Проверьте свои форматы файлов и стратегии курирования для себя : вместо того, чтобы доверять словам статей о том, какой тип формата лучше, чем другой, вы можете попробовать самостоятельно с pyFileFixity filetamper.py или просто самостоятельно, заменив несколько шестнадцатеричных символов в некоторых файлы: вы увидите, что большинство форматов файлов могут разбиваться всего за 3 разных байта. Поэтому вам действительно следует тщательно выбирать форматы файлов: предпочитайте простые текстовые файлы для заметок и используйте устойчивые форматы файлов для носителей (они все еще работают над такими, как код исправления переменных MPEG-4, его реализует ffmpeg, будет добавлен ref ) или сгенерируйте свои собственные коды для исправления ошибок.
Читайте статистические исследования, не верьте заявлениям . Как я уже говорил в предыдущем ответе, экстравагантные заявления постоянно выдвигаются в отношении долговечности носителей без каких-либо научных фактов, и вам следует с особой осторожностью относиться к этому. Действительно, в законе нет ничего, что мешало бы производителю хвастаться поддельными и не поддающимися проверке заявлениями о долговечности. Предпочитаю ссылаться на статистические исследования, такие как годовой отчет BackBlaze о частоте отказов жестких дисков .
Возьмите долго гарантированный носитель. Гарантия не может вернуть ваши данные, но она говорит вам о том, как производитель оценивает частоту отказов своего продукта (потому что иначе это будет слишком дорого, если скорость слишком высока в течение гарантийного периода).
Обновление схемы, которую я использую: я применяю стратегию расстановки приоритетов, описанную выше, и добавил к своей схеме службу облачного резервного копирования SpiderOak, поскольку у нее есть план с бесконечным хранилищем и он полностью зашифрован, поэтому я сохраняю единоличное владение своими данными. Я НЕ использую в качестве своего единственного носителя для резервного копирования какие-либо из моих данных, это всего лишь дополнительный слой.
Итак, вот моя текущая схема:
Мой распорядок дня таков: у меня всегда есть один 2,5-дюймовый жесткий диск USB, который я могу использовать для хранения неважных вещей (перемещения файлов с компьютера на жесткий диск) или для резервного копирования важных вещей (копировать файлы на жесткий диск, но хранить копию на своем жестком диске). компьютер). Для действительно критических вещей я дополнительно активирую онлайн-резервное копирование в SpiderOak (у меня на компьютере есть папка с критическими данными, поэтому мне просто нужно переместить туда важные файлы, и SpiderOak автоматически синхронизирует их). Для ДЕЙСТВИТЕЛЬНО критических файлов я также вычисляю файл для исправления ошибок, используя pyFileFixity.
Подводя итог, я могу хранить их на критически важных вещах: на портативном жестком диске, в облаке SpiderOak и на моем компьютере, поэтому у меня есть 3 копии в любое время с помощью всего двух быстрых действий (копирование на портативный жесткий диск и перемещение в папку SpiderOak). Если одна копия повреждена, я могу сделать большинство голосов, чтобы исправить их, используя pyFileFixity. Это очень дешевая схема (как по цене, так и по времени), но очень эффективная и реализующая все основные принципы цифрового курирования (тройное резервирование, разные копии в разных местах, разные носители, проверка целостности и ecc от SpiderOak).
Затем каждые 3–6 месяцев я синхронизирую свой портативный жесткий диск со вторым жестким диском дома, а затем каждые 6–12 месяцев я синхронизирую свой портативный жесткий диск со своим третьим жестким диском, который находится в другом доме. Это обеспечивает дополнительное преимущество ротации (если через 6 месяцев я пойму, что что-то пошло не так в моей последней резервной копии и удалил критические файлы, я смогу получить их с одного из двух домашних жестких дисков).
Наконец, я записал некоторые очень важные файлы на диски BluRay, используя DVDisaster (и дополнительные файлы ecc с pyFileFixity, но я не уверен, что это было необходимо). Я храню их в герметичной коробке в шкафу. Я проверяю их только раз в несколько лет.
Итак, вы видите, моя схема на самом деле не является большой нагрузкой: ежедневно копирование файлов на портативный жесткий диск и в папку SpiderOak занимает несколько минут, а затем я просто синхронизирую каждые 6 месяцев на один или другой домашний жесткий диск. , Это может занять до дня в зависимости от того, сколько данных нужно синхронизировать, но это автоматизировано с помощью программного обеспечения, так что вам просто нужно позволить компьютеру запустить программное обеспечение, а вы делаете что-то еще (я использую нетбук за 100 $, который я купил только для сделайте это, чтобы я мог одновременно работать на моем главном компьютере, не беспокоясь о сбое моего компьютера в середине копии, что может быть ужасно и разрушить записываемый жесткий диск ). Коды исправления ошибок и схемы BluRay редко используются для действительно важных данных, поэтому это отнимает немного больше времени, но редко.
Эта схема может быть улучшена (как всегда), например, с помощью ZFS / ReFS на жестких дисках : это позволит реализовать автоматическую защиту кода исправления ошибок Рида-Соломона и проверку целостности (и диттоблоков !) Без какого-либо ручного взаимодействия с моей стороны ( вопреки pyFileFixity). Хотя ZFS не может работать под ОС Windows (на данный момент) , есть ReFS, которая позволяет аналогичный контроль исправления ошибок на уровне файловой системы. Также было бы неплохо использовать эти файловые системы на внешних жестких дисках! Портативный жесткий диск с ZFS / ReFS с автоматическим исправлением ошибок RS и дедупликацией должен быть потрясающим! (и ZFS кажется довольно быстрой, поэтому копирование должно быть быстрым!).
И последнее замечание: будьте осторожны с заявлениями о возможностях ECC файловых систем, таких как в этом списке , потому что для большинства он ограничен только метаданными (такими как APFS ) или зеркалированием RAID 1 ( btrfs ). Насколько мне известно, только ZFS и ReFS предоставляют реальные коды исправления ошибок (а не простое зеркальное отображение) как метаданных, так и данных, причем ZFS является наиболее продвинутой в настоящее время (хотя все еще несколько экспериментальной по состоянию на 2018 год), в частности, потому что диски ReFS не могут быть загрузочными ,
источник
Нет простого решения. Ведение архива - это процесс , а не разовая работа. Все три доступных в настоящее время архивных типа носителей имеют свои плюсы и минусы, однако эти аргументы применимы ко всем типам носителей:
Никто не хранил DVD или жесткие диски в течение 30 или 100 лет по понятным причинам. Так что нет никакого послужного списка, и никто не знает, как СМИ будут стареть. Тесты на искусственное старение мало что доказывают, и вы полагаетесь на тестирование поставщика (не беспристрастное).
Вы должны хранить носитель в контролируемой среде для достижения наилучших результатов (постоянная температура / влажность, слабое освещение и т. Д.). В противном случае медиа-жизнь значительно сокращается.
Вы должны поддерживать аппаратное и программное обеспечение, которое читает носитель (например, интерфейсы SATA могут быть недоступны через 30 лет).
Так что, на мой взгляд, единственное жизнеспособное решение для домашних пользователей или малого бизнеса это:
источник
Я бы пошел микрофильм. Я не знаю, если это все еще производится, но я был бы удивлен, если бы это не было. Негативы на основе серебра сохраняются сотни лет, если хранятся правильно. Конечно, это огромные инвестиции, и они займут целую комнату для фотографирования и просмотра, и это не считая хранения. Так что это только если вы действительно ЗНАЧИТЕ 100 лет + без обслуживания.
Если нет - и есть вероятность, что вы этого не сделаете, если не хотите создать временную капсулу - просто используйте резервные копии жесткого диска и копируйте все это на новый носитель каждые 10-15 лет. На самом деле, нет лучшей страховки от старения носителя, чем копирование всего этого каждые 10 лет или около того. Лучше, чем микрофильм, лучше, чем глиняные таблички, лучше, чем каменные обелиски, утопающие в песке пустыни.
источник
До 5 ТБ (или больше?) Вы можете надежно хранить до 30 лет на магнитной ленте или ленточном накопителе. Это время доказано. Записываемые диски Blue-ray могут безопасно хранить ваши материалы до 30 лет, но их емкость составляет около 100 ГБ.
Если у вас есть больше денег, вы бы сохранили их на черно-белой 35-мм пленке. Предполагается, что данные могут быть восстановлены (в зависимости от плотности) за следующие 700 лет. ( Немецкая ссылка на википедию )
источник
Я рекомендую никелевый диск диаметром три дюйма с микроскопической информацией, выгравированной на его поверхности.
http://rosettaproject.org/blog/02008/aug/20/very-long-term-backup/
источник
Для такого рода промежутков времени все, что уже есть на бумаге (или может быть легко напечатано без потери информации), лучше всего хранить в такой форме. Просто помните о бумаге и тонере, которые вы используете для печатной копии.
Что касается других, я не знаю ни одного используемого в настоящее время цифрового носителя, который бы работал в течение этих промежутков времени. Если вы тратите время (и, следовательно, деньги) на обновление своей коллекции, то магнитная лента может быть жизнеспособным вариантом, но даже в этом случае вам потребуется некоторая избыточность, поскольку вы можете просто узнать, что одна лента испортилась (или может случиться так, что стример просто искажает ленту при чтении).
И даже если вы сможете заставить действительный носитель выдержать испытание временем, вы все равно столкнетесь с вопросом, сможет ли какая-либо программа прочитать носитель через 30 лет, не говоря уже о 100 годах.
источник
Это правда, что обычные CD-R и DVD-R недостаточно надежны для архивирования важных данных. Но вы можете получить DVD, которые не так быстро разлагаются:
https://www.google.com/search?q=archival+dvd-r
источник
Я читал, что «M-Disc» создал DVD, который нуждается в специальном устройстве записи, но который читается на обычных устройствах чтения DVD. Они утверждают, что предполагаемая продолжительность жизни составляет 1000 лет, заявив, что это не может быть точно проверено. Длительное воздействие солнца, царапин, многократного использования и т. Д., И диск пригоден на 100%. Я был бы заинтересован в любой обратной связи от любого, кто сталкивался с этой системой.
Вот выдержка из Dell, которая, возможно, устанавливает привод M-Disc в свои новые ноутбуки / ПК.
Компания M-DISC Ready превращает данные лазерного травления в неорганический материал, похожий на камень, чтобы предотвратить потерю данных, обеспечивая безопасность ваших файлов и возможность их хранения до 1000 лет, заявляет компания.
В отличие от всех других записываемых DVD-дисков, в которых для хранения данных используются органические красители, диски M не со временем исчезают и не портятся.
источник
>
для форматирования как кавычки.Вам необходимо смешивать различные технологии, места и среды для обеспечения долговременного резервного копирования:
источник
Как уже упоминалось, есть новая технология под названием M-Disc. Они очень надежны: http://www.zdnet.com/torture-testing-the-1000-year-dvd-7000023203/ Мы начали использовать их для защиты образов дисков производственных машин. На рынке уже есть Blu-Rays. Единственный недостаток - они медленнее, чем классические B-RD.
источник
Если вы хотите иметь метод для решения этой проблемы, вам следует изучить поле Цифровое сохранение.
http://en.wikipedia.org/wiki/Digital_preservation
Существует также эталонная модель: OAIS http://en.wikipedia.org/wiki/Open_Archival_Information_System
Есть несколько открытых и коммерческих решений для достижения этой цели. Библиотеки и архивы используют эти технологии для сохранения оцифрованных книг в течение длительного периода времени.
источник
Ваш ответ прост:
https://wiki.openstack.org/wiki/Cinder
Openstack - это система почти «бессмертного» хранилища, поскольку вы можете модернизировать или заменить отказные узлы новыми даже с использованием технологий, неизвестных нам в настоящее время. Ваши данные хранятся как минимум в 2, до 5 местах одновременно в этой системе, поэтому полные заметки о хранении могут дать сбой, а ваши данные все еще присутствуют. Весы до 50 ПБ (проверено) - 110 ПБ. По сути, это добавляет SW Layer на ваше оборудование, и это делает ваше хранилище бесконечно живым. Он преодолевает наш текущий звуковой барьер наборов рейдов благодаря ограничениям времени восстановления очень больших наборов рейдов. Затраты составляют около 50% традиционных систем хранения Raid. Я знаю систему от FUJITSU, в которой она используется в качестве эталонной архитектуры: CD10000
источник
Практичное долговременное хранение данных с использованием современных технологий 2014 года:
... и это то, что я делаю.
Получите два мультитерабайтных диска, например два диска по 3 ТБ каждый. Вызовите один TB-1, а другой TB-2. Сделайте резервную копию всего, что касается ТБ-1 После года резервного копирования в TB-1 переформатируйте TB-2 и скопируйте TB-1 в TB-2. Затем на следующий год сделайте резервную копию ТБ-2. После этого года переформатируйте TB-1 и скопируйте TB-2 в TB-1, тем самым снова запуская двухгодичный цикл.
Переформатирование восстанавливает магнитную силу секторных маркеров. И копирование восстанавливает магнитную силу данных.
Тот же принцип может быть применен к резервному копированию на магнитную ленту и резервному копированию на компакт-диске или большинству других резервных копий. Но компакт-диски настолько неудобны, потому что они могут испортиться менее чем за год, и вам нужно так много из них, чтобы сделать резервную копию всего. Таким образом, запись копий всех резервных компакт-дисков каждые 5 месяцев - это слишком много работы. До сих пор я могу хранить всю свою жизнь на одном мульти-терабайтном диске.
источник