Какой носитель следует использовать для долгосрочного хранения больших объемов данных (архивирования)?

59

Этот вопрос был вдохновлен https://superuser.com/questions/374386/how-to-store-and-preserve-lots-of-data . Были и другие подобные вопросы, но ни с одним из тех же критериев.

Это два вопроса в одном.

  1. Как вы храните финансовые / критические записи, которые должны пережить что-либо, кроме пожара, и должны быть доступны в течение десятилетий?
  2. Допустим, я хочу хранить семейные фото / видео и хочу, чтобы люди могли найти их в хранилище через 100 лет и все еще иметь возможность использовать их. Как это будет сделано?

критерии

  1. Долгосрочный означает 30+ лет гарантировано . 100+ лет в среднем. [Если это не практично, используйте ближайшее решение]
  2. Большой объем означает пару терабайт.
  3. Ответами могут быть «бескомпромиссные / промышленные» решения или практические решения для домашнего офиса / малого бизнеса.
  4. Медиа не будут активны в течение времени. (т.е. если вы предложите жесткие диски, они не будут вращаться).
  5. Кроме того, нет необходимости читать эти архивы. Они там для чрезвычайных или "для будущих поколений" целей.
  6. Не требует обслуживания (если это вообще возможно).

Мои мысли:

  1. CD-R / DVD-R доказали, что даже в краткосрочной перспективе они являются ужасным средством резервного копирования. Они кажутся очень хрупкими и, по-видимому, очень быстро теряют свои данные, даже когда находятся в первозданном состоянии.
  2. Я не могу не думать, что хранить данные о паре жестких дисков емкостью 1 ТБ, а затем ожидать, что они правильно раскрутятся десять или два года спустя, будет ужасной идеей. Я ошибаюсь?
  3. Промышленные стримеры кажутся жизнеспособным вариантом?
user606723
источник
Я не эксперт, но я бы сказал кассету. Этот вопрос может быть лучше при сбое сервера, но я, честно говоря, не думаю, что он тоже подходит идеально, поэтому я отказываюсь голосовать. Это хороший вопрос и должен где-то жить.
Shinrai
Я согласен @Shinrai. Я могу переместить это куда-нибудь еще, если кто-то может прокомментировать, где это должно жить.
user606723
4
Если вы не хотите идти на компромисс, существует технология, рассчитанная на не менее 40 000 лет без вмешательства: voyager.jpl.nasa.gov/spacecraft/goldenrec.html
fixer1234
Будущее за кристаллами, оно потенциально может хранить 360 ТБ и прослужить миллион лет. Смотрите: 5D «Кристалл памяти Супермена» возвещает о неограниченном
сроке

Ответы:

20

Бумага

За исключением архивных чернил на архивной бумаге в запечатанном хранилище, ни один из существующих носителей не может прослужить в среднем 100 лет без какого-либо обслуживания.

Архивная бумага

Более старые бумаги были сделаны из таких материалов, как лен и конопля, и поэтому являются натуральными щелочными. или бескислотный, поэтому длится сотни лет. Бумага 20-го века и самая современная бумага обычно изготавливаются из древесной массы, которая часто является кислой и не хранится в течение длительного времени.

Архивные чернила

Эти постоянные, не выгорающие чернила устойчивы к воздействию света, тепла и воды и не содержат примесей, которые могут повлиять на долговечность бумаги или фотоматериалов. Черные актиничные чернила химически стабильны и содержат неорганический пигмент, который не имеет тенденции поглощать примеси, как другие чернильные пигменты.

Резервное хранилище

Торвальдс однажды сказал

Только слабые используют резервное копирование на магнитную ленту: _real_ мужчины просто загружают свои важные вещи на ftp, и пусть весь мир отражает их

Что говорит о том, что вы не должны полагаться на одну копию на одном носителе.

Не магнитный носитель?

http://www.zdnet.com/blog/perlow/the-bell-tolls-for-your-magnetic-media/9364?tag=content;siu-container

  • Типичный пример безвозвратной деградации магнитных сред.
  • Проблемы аппаратного и программного обеспечения (и форматов данных)

Неспециализированные системы

В 2002 году были большие опасения, что диски станут нечитаемыми, так как компьютеры, способные считывать формат, стали редкими, а диски, способные обращаться к дискам, еще реже. Помимо сложности эмуляции исходного кода, основная проблема заключалась в том, что неподвижные изображения были сохранены на лазерном диске в виде однокадрового аналогового видео,

http://en.wikipedia.org/wiki/BBC_Domesday_Project#Preservation

Долгосрочное Личное хранение

http://www.zdnet.com/blog/storage/long-term-personal-data-storage/376

  • и носитель, и формат могут стать нечитаемыми.
  • печать на бескислотной бумаге с пигментными чернилами и хранить в прохладном, сухом и темном месте.
  • Первая проблема - выбор форматов данных для максимальной продолжительности жизни.
  • Избегайте использования проприетарных форматов
  • USCSF переводит все свои оригинальные ленты - многие в устаревших форматах, таких как BetaSP и VHS, - в формат 75Mbit motionJPEG2000
RedGrittyBrick
источник
1
1) Можете ли вы предоставить подробности об этом? Нормальные печатные копии не будут длиться так долго? (Фото со 100-летней давности вроде бы хорошо, AFAIK). 2) Если ни один текущий носитель данных не продержится так долго, я предлагаю использовать закрытое решение. Печально, что через десятилетия мы не сможем просматривать старые коробки и ожидать, что сможем посмотреть на любые наши старые, забытые фотографии и т. Д.
user606723
@ user606723: см. обновленный ответ
RedGrittyBrick
Я полагал, что лазерная печать на бескислотной бумаге была бы хорошим способом хранения данных (несколько мегабайт на страницу), которые с высокой вероятностью могут быть прочитаны через 100-200 лет. Программное обеспечение для чтения было бы относительно простым, и можно предположить, что сканеры всегда будут доступны, поэтому формат (если не слишком сложный) никогда не будет «уходить» за пределы способности компетентного любителя восстановиться.
Даниэль Р Хикс
64

Краткий ответ

Невозможно гарантировать длительный период из-за энтропии (также называемой смертью!). Цифровые данные разрушаются и умирают, как и любая другая вещь во вселенной. Но это можно замедлить.

В настоящее время не существует надежного и научно доказанного способа гарантировать более чем 30-летний архив холодных данных. Некоторые проекты стремятся сделать это, например, проект Rosetta Disks в музее Long Now , хотя они все еще очень дороги и имеют низкую плотность данных (около 50 МБ).

В то же время вы можете использовать научно доказанные эластичные оптические носители для холодного хранения, такие как диски Blu-ray типа HTL, например, Panasonic, или DVD + R архивного класса, такие как Verbatim Gold Archival, и хранить их в герметичных коробках в мягком месте (избегайте высокая температура) и вне света.

Также будьте резервными : сделайте несколько копий ваших данных (как минимум 4) и вычислите хэши, чтобы регулярно проверять, что все в порядке, и каждые несколько лет вы должны переписывать свои данные на новые диски. Кроме того, используйте много исправляющих ошибки кодов , они позволят вам восстановить ваши поврежденные данные!

Длинный ответ

Почему данные повреждены со временем? Ответ заключается в одном слове: энтропия . Это одна из основных и неизбежных сил вселенной, которая заставляет системы становиться все менее и менее упорядоченными во времени. Повреждение данных - это как раз и есть беспорядок в порядке следования битов. Другими словами, Вселенная ненавидит ваши данные .

Борьба с энтропией - это то же самое, что борьба со смертью. Но вы можете найти способы замедлить смерть, так же, как вы можете замедлить энтропию. Вы также можете обмануть энтропию, исправляя повреждения (другими словами: вы не можете остановить повреждения, но вы можете исправить их, если вы приняли меры заранее!). Как и в случае с жизнью и смертью, здесь нет волшебной палочки и нет единого решения для всех, а лучшие решения требуют от вас непосредственного участия в цифровом хранении ваших данных. И даже если вы все делаете правильно, вы не гарантируете безопасность своих данных, вы только максимизируете свои шансы.

Теперь для хороших новостей: теперь есть довольно эффективные способы хранения ваших данных, если вы сочетаете в себе качественные носители данных и хорошие стратегии архивирования / хранения данных : вам следует спланировать неудачу .

Каковы хорошие стратегии курирования? Давайте разберемся одно: большая часть информации, которую вы найдете, будет о резервных копиях, а не об архивации. Проблема в том, что большинство людей передаст свои знания о стратегиях резервного копирования в архив, и, таким образом, в настоящее время многие из мифов стали широко распространенными. Действительно, хранение данных в течение нескольких лет (резервное копирование) и хранение данных в течение как можно более длительного периода времени, охватывающего как минимум десятилетия (архивирование), являются совершенно разными целями и, следовательно, требуют различных инструментов и стратегий.

К счастью, исследований и научных результатов достаточно много, поэтому я советую ссылаться на эти научные статьи, а не на форумы или журналы. Здесь я подведу некоторые из моих чтений.

Кроме того, будьте осторожны с претензиями и независимыми научными исследованиями, утверждая, что тот или иной носитель информации идеален. Вспомните знаменитый проект BBC Domesday: «Цифровая книга Domesday длится 15 лет, а не 1000» . Всегда перепроверяйте исследования с действительно независимыми документами, и если их нет, всегда предполагайте, что носитель не подходит для архивирования.

Давайте уточним, что вы ищете (из вашего вопроса):

  • Долгосрочное архивирование : вы хотите хранить копии ваших разумных, невоспроизводимых «личных» данных. Архивирование принципиально отличается от резервного копирования , что также объясняется здесь : резервные копии предназначены для динамических технических данных, которые регулярно обновляются и, следовательно, должны обновляться в резервные копии (т. Е. ОС, макет рабочих папок и т. Д.), Тогда как архивы представляют собой статические данные, которые Скорее всего, вы будете писать только один раз и время от времени читать . Архивы для внутренних данных , как правило, личные.

  • Холодное хранение : вы хотите максимально избежать обслуживания ваших архивных данных. Это БОЛЬШОЕ ограничение, поскольку оно означает, что носитель должен использовать компоненты и методологию письма, которые остаются стабильными в течение очень долгого времени, без каких-либо манипуляций с вашей стороны и без необходимости какого-либо подключения к компьютеру или электроснабжению.

Чтобы упростить наш анализ, давайте сначала изучим решения для хранения в холодильнике, а затем долгосрочные стратегии архивирования.

Носители холодного хранения

Выше мы определили, каким должен быть хороший холодный носитель: он должен хранить данные в течение длительного времени без каких-либо манипуляций (вот почему он называется «холодным»: вы можете просто хранить его в шкафу, и вам не нужно подключать его к компьютер для хранения данных).

Бумага может показаться самым устойчивым средством хранения на земле, потому что мы часто находим очень старую рукопись древних времен Однако бумага страдает от основных недостатков: во-первых, плотность данных очень низкая (не может хранить более ~ 100 КБ на бумаге, даже с крошечными символами и компьютерными инструментами), и со временем она ухудшается без какого-либо способа ее мониторинга: бумага так же, как жесткие диски, страдают от тихой коррупции. Но в то время как вы можете отслеживать бесшумные искажения на цифровых данных, вы не можете на бумаге. Например, вы не можете гарантировать, что изображение сохранит те же цвета только в течение десятилетия: цвета будут ухудшаться, и у вас нет возможности найти первоначальные цвета. Конечно, вы можете курировать ваши фотографии, если вы профессионал в восстановлении изображений, но это занимает много времени, в то время как с цифровыми данными вы можете автоматизировать этот процесс курирования и восстановления.

Жесткие диски (HDD) будут известны к имеет среднюю продолжительность жизни от 3 до 8 лет: они не просто деградируют с течением времени, они гарантированы в конце концов умирает (т.е. недоступны). Следующие кривые показывают эту тенденцию для всех жестких дисков умереть с ошеломляющей скоростью:

Кривая ванны, показывающая эволюцию частоты отказов жесткого диска с учетом типа ошибки (также применима к любому устройству):

Кривая-HDD1

Кривая, показывающая частоту отказов жесткого диска, объединены все типы ошибок: Кривая-HDD2

Источник: Backblaze

Вы можете видеть, что существует 3 типа жестких дисков относительно их отказа: быстро умирающие (например, производственная ошибка, плохое качество жестких дисков, поломка головки и т. Д.), С постоянной скоростью умирания (хорошее производство, они умирают для разных " нормальные «причины», это относится к большинству жестких дисков) и, наконец, надежные, которые живут немного дольше, чем большинство жестких дисков, и в конечном итоге умирают вскоре после «обычных» (например: удачные жесткие диски, не слишком часто используемые, идеальные условия окружающей среды и т.д ..). Таким образом, вам гарантировано, что ваш жесткий диск умрет.

Почему жесткие диски умирают так часто? Я имею в виду, что данные записаны на магнитном диске, и магнитное поле может длиться десятилетия, прежде чем исчезнет. Причина, по которой они умирают, заключается в том, что носитель данных (магнитный диск) и считывающее оборудование (электронная плата + вращающаяся головка) связаны между собой : их нельзя разъединить, вы не можете просто извлечь магнитный диск и прочитать его с другой головкой, потому что сначала электронная плата (которая преобразует физические данные в цифровую) различна почти для каждого жесткого диска (даже той же марки и эталона, это зависит от оригинальной фабрики), а внутренний механизм с вращающейся головкой настолько сложен, что в настоящее время это невозможно для человека идеально разместить вращающуюся головку на магнитных дисках, не убивая их.

Кроме того, известно, что со временем HDD размагничиваются, если не используются (включая SSD). Таким образом, вы не можете просто хранить данные на жестком диске, хранить их в шкафу и думать, что они будут хранить данные без какого-либо электрического соединения: вам необходимо подключать жесткий диск к источнику электропитания не реже одного раза в год или в течение нескольких лет . Таким образом, жесткие диски явно не подходят для холодного хранения.

Магнитные ленты : они часто описываются как доступ к резервным копиям, и как расширение для архивирования. Проблема с магнитными лентами заключается в том, что они ОЧЕНЬ чувствительны: частицы магнитного оксида могут быть легко испорчены солнцем, водой, воздухом, царапинами, размагничены временем или любым электромагнитным устройством или просто упадут со временем, или будут напечатаны . Вот почему они обычно используются только в центрах обработки данных профессионалами. Кроме того, никогда не было доказано, что они могут хранить данные более десяти лет. Итак, почему их часто советуют делать резервные копии? Поскольку раньше они были дешевыми: в те времена магнитные ленты стоили в 10-100 раз дешевле, чем жесткие диски, а жесткие диски были гораздо менее стабильными, чем сейчас. Поэтому магнитные ленты рекомендуются в первую очередь для резервного копирования из-за экономической эффективностиНе из-за отказоустойчивости, которая нас больше всего интересует, когда дело доходит до архивирования данных.

Карты CompactFlash и Secure Digital (SD), как известно, довольно крепкие и надежные, способны выдерживать катастрофические условия .

Карты памяти в большинстве камер практически неразрушимы, нашел журнал Digital Camera Shopper. Пять форматов карт памяти остались живы, будучи вареными, растоптанными, вымытыми и вымытыми в кофе или коле.

Однако, как и любой другой магнитный носитель, он использует электрическое поле для сохранения данных, и, таким образом, если на карте не хватает сока, данные могут быть полностью потеряны. Таким образом, не идеально подходит для холодного хранения (так как вам иногда нужно перезаписывать все данные на карте, чтобы обновить электрическое поле), но это может быть хорошим средством для резервного копирования и краткосрочного или среднесрочного архивирования.

Оптические носители: Оптические носители представляют собой класс носителей данных, полагающихся на лазер для чтения данных, таких как CD, DVD или Blu-ray (BD). Это можно рассматривать как эволюцию бумаги, но мы записываем данные в настолько крошечном размере, что нам нужен был более точный и упругий материал, чем бумага, и оптические диски - это просто так. Двумя большими преимуществами оптических носителей является то, что носитель данных отделен от считывающего оборудования (т. Е. Если ваш DVD-ридер выходит из строя, вы всегда можете купить другой для чтения вашего диска) и что он основан на лазере, что делает его универсальным и будущее (то есть, если вы знаете, как сделать лазер, вы всегда можете настроить его так, чтобы он считывал биты с оптического диска путем эмуляции, как это делал CAMILEON для проекта BBC Domesday ).

Как и любая технология, новые итерации предлагают не только большую плотность (хранилище), но и лучшую коррекцию ошибок и лучшую устойчивость к разрушению окружающей среды (не всегда, но в целом верно). Первые дебаты о надежности DVD были между DVD-R и DVD + R, и даже если DVD-R все еще широко распространены в наши дни, DVD + R признан более надежным и точным . В настоящее время существуют DVD-диски архивного класса, специально предназначенные для холодного хранения, в которых утверждается, что они могут выдерживать не менее ~ 20 лет без какого-либо обслуживания:

Verbatim Gold Archival DVD-R был [...] признан самым надежным DVD-R в тщательном долгосрочном стресс-тесте хорошо известного немецкого журнала c't (c't 16/2008, стр. 116-123). ) [...] достижение минимального срока службы 18 лет и средней прочности от 32 до 127 лет (при 25 ° С, 50% влажности). Ни один другой диск не приблизился к этим значениям, второй лучший DVD-R имел минимальный срок службы всего 5 лет.

С LinuxTech.net .

Кроме того, некоторые компании, специализирующиеся на очень долгосрочном архивировании DVD-дисков, активно продают их, например, M-Disc от Millenniata или DataTresorDisc, утверждая, что они могут хранить данные более 1000 лет, и проверены некоторыми (независимыми) исследованиями (из 2009) среди менее научных других .

Все это кажется очень многообещающим! К сожалению, независимых научных исследований недостаточно для подтверждения этих утверждений, и немногие из них не столь восторжены:

Влажность (относительная влажность 80%) и температура (80 ° C) ускоряли старение на нескольких DVD-дисках в течение 2000 часов (около 83 дней) теста с регулярной проверкой читаемости данных: Влажность и температура ускорили старение на нескольких дисках DVD

Перевод с французского учреждения архивирования цифровых данных (Archives de France), исследование с 2012 года.

Первый график показывает DVD с медленным развитием деградации. Второй DVD с кривыми быстрой деградации. И третий - для специальных «очень долгосрочных» DVD, таких как M-Disc и DataTresorDisc. Как мы видим, их производительность не совсем соответствует заявленным требованиям, будучи ниже или на уровне стандартных DVD-архивов!

Однако неорганические оптические диски, такие как M-Disc и DataTresorDisc, получают одно преимущество: они совершенно нечувствительны к деградации света:

Ускоренное старение с использованием света (750 Вт / м²) в течение 240 часов: Легкое ускоренное старение на нескольких дисках DVD

Это отличные результаты, но DVD-диск архивного уровня, такой как Verbatim Gold Archival, также достигает той же производительности, и, кроме того, свет является наиболее контролируемым параметром для объекта: довольно легко поместить DVD в закрытый ящик или шкаф, и, таким образом, устранение любого возможного воздействия света вообще. Было бы гораздо полезнее получить DVD, который очень устойчив к температуре и влажности, чем свет.

Эта же исследовательская группа также изучила рынок Blu-ray, чтобы узнать, будет ли какой-либо бренд с хорошим средним значением для длительного хранения в холодильнике. Вот их вывод:

Влажность и температура ускорили старение на нескольких марках Blu-ray при тех же параметрах, что и для DVD: Темп-шд

Легкое ускоренное старение на нескольких брендах BluRays, те же параметры: светло-шд

Перевод с этого исследования Archives de France, 2012.

Два резюме всех результатов (на французском) здесь и здесь .

В общем, лучший диск Blu-ray (от Panasonic) показал себя так же, как лучший DVD-диск архивного класса в тесте влажности + температуры, но при этом практически не чувствителен к свету! И этот диск Blu-ray даже не архивный класс. Кроме того, диски Blu-ray используют улучшенный код с исправлением ошибок, чем DVD (сами они используют расширенную версию относительно компакт-дисков), что еще больше минимизирует риск потери данных. Таким образом, кажется, что некоторые диски BluRay могут быть очень хорошим выбором для холодного хранения.

И действительно, некоторые компании начинают работать над архивными Blu-ray дисками высокой плотности, такими как Panasonic и Sony, объявляя, что они смогут предложить от 300 ГБ до 1 ТБ хранилища со средним сроком службы 50 лет. Кроме того, крупные компании обращаются к оптическим носителям для холодного хранения (потому что они потребляют намного меньше ресурсов, поскольку их можно хранить в холодильнике без какого-либо электропитания), например, Facebook, который разработал роботизированную систему для использования дисков Blu-ray как «холодных» хранилище " для данных их системы редко получают доступ.

Архивная инициатива «Длинный сейчас»: есть и другие интересные идеи, такие как проект « Розеттский диск» музея «Длинный сейчас» , который представляет собой проект написания микроскопически масштабированных страниц Бытия на всех языках на Земле, на которые Бытие было переведено. Это отличный проект, который первым предлагает среду, которая позволяет хранить 50 МБ для действительно очень длительного холодного хранения (так как оно написано на углероде), и с доступом на будущее, так как вам нужен только увеличитель для доступа к данных (без каких-либо странных спецификаций формата или технологических проблем, таких как фиолетовый луч Blu-ray, просто нужна лупа!). Тем не менее, они все еще сделаны вручную и, таким образом, оцениваются примерно в 20 тысяч долларов, что, по-моему, слишком много для схемы личного архивирования.

Интернет-решения: Еще один способ хранения ваших данных - через Интернет. Тем не менее, решения для облачного резервного копирования не очень подходят, потому что первостепенное значение для компаний, занимающихся облачным хостингом, может не хватить, если вы захотите сохранить свои данные. Другие причины включают в себя тот факт, что резервное копирование ужасно медленно (так как оно передается через Интернет), и большинство провайдеров требуют, чтобы файлы также существовали в вашей системе, чтобы поддерживать их в оперативном режиме. Например, и CrashPlan, и Backblaze будут безвозвратно удалять файлы, которые хотя бы один раз не были видны на вашем компьютере за последние 30 дней, поэтому, если вы хотите загружать резервные данные, которые хранятся только на внешних жестких дисках, вам придется подключить USB HDD, по крайней мере, один раз в месяц и синхронизировать с облаком, чтобы сбросить обратный отсчет. Тем не мение, некоторые облачные сервисы предлагают хранить ваши файлы бесконечно (если вы, конечно, платите) без обратного отсчета, например, SpiderOak. Поэтому будьте очень осторожны с условиями и использованием выбранного вами решения для резервного копирования на основе облака.

Альтернативой поставщикам облачного резервного копирования является аренда собственного частного сервера в режиме онлайн и, если возможно, выберите один из них с автоматическим зеркалированием / резервным копированием ваших данных в случае сбоя оборудования на их стороне (некоторые даже гарантируют вам защиту от потери данных в своих контрактах). , но конечно дороже). Это отличное решение, во-первых, потому что вы по-прежнему владеете своими данными, а во-вторых, потому что вам не придется управлять сбоями оборудования, это ответственность вашего хоста. И если однажды ваш хост выйдет из бизнеса, вы все равно сможете вернуть свои данные (выберите серьезный хост, чтобы они не закрывались в течение ночи, а уведомляли вас заранее, возможно, вы можете попросить включить это в контракт), и переназначить в другом месте.

Если вы не хотите создавать собственный частный онлайн-сервер и можете себе это позволить, Amazon предлагает новую услугу архивирования данных, которая называется Glacier . Цель состоит в том, чтобы точно хранить ваши данные в долгосрочной перспективе: таким образом, хранение данных на Glacier обходится дорого, но еще дороже получить эти данные, поскольку эта служба предназначена для хранения данных вне досягаемости. , а не хранить данные, к которым вы хотите часто обращаться. Это означает, что данный сервис указывает цены как для записи данных, так и для их чтения. Эта услуга имеет огромную стоимость, но она может оказаться выгодной для некоторых ваших наиболее важных данных (например, если у вас есть несколько ОЧЕНЬ полезных текстовых файлов или изображений, поскольку данные такого типа обычно имеют небольшой размер, не будет стоить вам очень дорого, чтобы хранить в леднике).

Недостатки холодного хранения : Однако в любом холодном хранилище есть большой недостаток: нет проверки целостности, потому что холодные носители НЕ МОГУТ автоматически проверять целостность данных (они могут просто реализовать схемы исправления ошибок, чтобы «залечить» немного повреждение после повреждения произошло, но его нельзя ни предотвратить, ни автоматически управлять!), потому что, в отличие от компьютера, отсутствует вычислительный блок для вычисления / журнализации / проверки и исправления файловой системы. Принимая во внимание, что с компьютером и несколькими блоками хранения вы можете автоматически проверять целостность ваших архивов и автоматически зеркалировать их на другое устройство, если это необходимо, если в архиве данных произошло некоторое повреждение (если у вас есть несколько копий одного и того же архива).

Долгосрочный архив

Даже при использовании наилучших доступных в настоящее время технологий цифровые данные могут храниться в холодильнике только в течение нескольких десятилетий (около 20 лет). Таким образом, в долгосрочной перспективе вы не можете просто полагаться на холодное хранилище: вам нужно настроить методологию для вашего процесса архивирования данных, чтобы гарантировать, что ваши данные могут быть получены в будущем (даже с технологическими изменениями), и что вы минимизируете риски потерять ваши данные. Другими словами, вам нужно стать цифровым куратором ваших данных, исправлять искажения, когда они происходят, и воссоздавать новые копии, когда это необходимо.

Здесь нет правил защиты от дурака, но вот несколько устоявшихся стратегий лечения , и в частности магический инструмент, который облегчит вашу работу:

  • Принцип избыточности / репликации : избыточность является единственным инструментом, который может обратить вспять влияние энтропии , которая является принципом, основанным на теории информации. Чтобы сохранить данные, вам нужно продублировать эти данные. Коды ошибок - это как раз автоматическое применение принципа избыточности. Тем не менее, вы также должны убедиться, что ваши данные являются избыточными: несколько копий одних и тех же данных на разных дисках, несколько копий на разных носителях (так что если один носитель выходит из строя из-за внутренних проблем, маловероятно, что другие на разных носителях также потерпят неудачу одновременно) и т. д. В частности у вас всегда должно быть не менее 3 копий ваших данных, также называемых 3-модульной избыточностью в инженерном обеспечении, чтобы в случае повреждения ваших копий вы могли отдать простое большинство голосов, чтобы восстановить ваши файлы из ваших 3 копий. Всегда помните совет компаса моряка:

Приносить два компаса бесполезно, потому что, если один из них пойдет не так, вы никогда не узнаете, какой из них правильный, или оба неправильны. Всегда берите один компас или больше трех.

  • Коды исправления ошибок : это волшебный инструмент, который сделает вашу жизнь проще и ваши данные безопаснее. Коды исправления ошибок (ECC) - это математическая конструкция, которая будет генерировать данные, которые можно использовать для восстановления ваших данных. Это более эффективно, потому что ECC могут восстанавливать намного больше ваших данных, используя намного меньше места для хранения, чем простая репликация (то есть, делая несколько копий ваших файлов), и они могут даже использоваться, чтобы проверить, имеет ли ваш файл какие-либо коррупция, и даже найти, где эти коррупции, На самом деле, это в точности применение принципа избыточности, но более умным способом, чем репликация. Этот метод широко используется в любой дальней связи, такой как 4G, WiMax и даже космическая связь НАСА. К сожалению, хотя ECC вездесущи в телекоммуникациях, они не занимаются восстановлением файлов, возможно потому, что это немного сложно. Тем не менее, доступно некоторое программное обеспечение, такое как хорошо известное (но уже старое) PAR2, DVD Disaster (которое предлагает добавить коды исправления ошибок на оптические диски) и pyFileFixity (которое я разрабатываю частично для преодоления ограничений и проблем PAR2). Существуют также файловые системы, которые дополнительно реализуют Reed-Solomon, такие как ZFS для Linux или ReFS для Windows, которые технически являются обобщением RAID5.

  • Регулярно проверяйте целостность ваших файлов: Хэшируйте свои файлы и проверяйте их время от времени (т.е. раз в год, но это зависит от среды хранения и условий окружающей среды). Когда вы видите, что ваши файлы пострадали от повреждения, пришло время восстановить с помощью сгенерированных вами ECC, если вы это сделали, и / или сделать новую свежую копию ваших данных на новом носителе. Проверка данных, исправление повреждений и создание новых свежих копий - это очень хороший цикл курирования, который обеспечит безопасность ваших данных. В частности, проверка очень важна, потому что копии ваших файлов могут быть незаметно повреждены, и если вы затем скопируете копии, которые были подделаны, вы получите полностью поврежденные файлы. Это еще более важно с холодными носителями, такими как оптические диски, которые НЕ МОГУТ автоматически проверять целостность данных (они уже реализуют ECC, чтобы немного зажить, но они не могут ни проверять, ни создавать новые свежие копии автоматически, это ваша работа!). Для отслеживания изменений файлов вы можете использовать скрипт rfigc.pypyFileFixity или другие инструменты UNIX, такие как md5deep . Вы также можете проверить состояние работоспособности некоторых носителей, таких как жесткие диски, с помощью таких инструментов, как Hard Drive Sentinel или smartmontools с открытым исходным кодом .

  • Храните свои архивные носители в разных местах (по крайней мере, с одной копией за пределами вашего дома!), Чтобы избежать реальных катастрофических событий, таких как наводнение или пожар. Например, один оптический диск на вашем рабочем месте или облачное резервное копирование может быть хорошей идеей для удовлетворения этого требования (даже если облачные провайдеры могут быть закрыты в любой момент, пока у вас есть другие копии, вы будете в безопасности. облачные провайдеры будут служить только как внешний архив в случае чрезвычайной ситуации).

  • Хранить в специальных контейнерах с контролируемыми параметрами окружающей среды : для оптических сред хранить вдали от света и в водонепроницаемой коробке, чтобы избежать влажности. Для жестких дисков и SD-карт храните их в антимагнитных гильзах, чтобы избежать остаточного электричества, которое может повлиять на работу накопителя. Вы также можете хранить в герметичной и водонепроницаемой сумке / коробке и хранить в морозильной камере: низкие температуры замедляют энтропию, и вы можете значительно продлить срок службы любого такого носителя (просто убедитесь, что вода победила). не входите внутрь, иначе ваш медиум быстро умрет).

  • Используйте качественное оборудование и проверяйте его заранее (например, когда вы покупаете SD-карту, протестируйте всю карту с помощью программного обеспечения, такого как HDD Scan, чтобы убедиться, что все в порядке, прежде чем записывать ваши данные). Это особенно важно для оптических приводов, потому что их качество может кардинально изменить качество записанных дисков, как продемонстрировано в исследовании Archives de France (плохой DVD-рекордер будет производить DVD-диски, которые прослужат намного меньше).

  • Тщательно выбирайте форматы файлов: не все форматы файлов устойчивы к повреждениям, некоторые даже явно слабые. Например, изображения .jpg могут быть полностью повреждены и нечитаемы, если подделать один или два байта. То же самое для 7zip архивов. Это смешно, поэтому будьте осторожны с форматом файлов, которые вы архивируете. Как правило, простой чистый текст лучше, но если вам нужно сжать, использовать не сплошной zip, а для изображений используйте JPEG2 (пока не с открытым исходным кодом ...). Больше информации и обзоров про цифровых кураторов здесь , здесь и здесь .

  • Храните вместе с вашими архивами данных все программное обеспечение и спецификации, необходимые для чтения данных. Помните, что спецификации быстро меняются, и поэтому в будущем ваши данные могут быть недоступны для чтения, даже если вы можете получить доступ к файлу. Таким образом, вы должны предпочесть форматы с открытым исходным кодом и программное обеспечение и хранить исходный код программы вместе с вашими данными, чтобы вы всегда могли адаптировать программу из исходного кода для запуска с новой ОС или компьютера.

  • Множество других методов и подходов доступно здесь , здесь и в различных частях Интернета.

Заключение

Я советую использовать то, что у вас есть, но всегда соблюдайте принцип избыточности (сделайте 4 копии!) И всегда регулярно проверяйте целостность (поэтому вам необходимо предварительно сгенерировать базу данных хэшей MD5 / SHA1 заранее) и создавать новые новые копии в случае коррупции. Если вы сделаете это, вы можете технически хранить ваши данные столько, сколько захотите, независимо от того, какой у вас носитель данных. Время между каждой проверкой зависит от надежности ваших носителей: если это дискета, проверяйте каждые 2 месяца, если это Blu-ray HTL, проверяйте каждые 2/3 года.

Теперь, в оптимальном варианте, я рекомендую для холодного хранения использовать диски Blu-ray HTL или DVD- диски архивного качества, которые хранятся в водонепроницаемых непрозрачных коробках и хранятся в свежем месте. Кроме того, вы можете использовать SD-карты и облачных провайдеров, таких как SpiderOak, для хранения избыточных копий ваших данных или даже жестких дисков, если они более доступны для вас.

Используйте много кодов , исправляющих ошибки , они спасут ваш день. Также вы можете сделать несколько копий этих файлов ECC (но несколько копий ваших данных важнее, чем несколько копий ECC, поскольку файлы ECC могут восстанавливаться самостоятельно!).

Все эти стратегии могут быть реализованы с использованием набора инструментов, которые я разрабатываю (с открытым исходным кодом): pyFileFixity . Этот инструмент был фактически запущен этим обсуждением, когда обнаружил, что не было бесплатного инструмента для полного управления исправлением файлов. Также, пожалуйста, обратитесь к readme и вики проекта для получения дополнительной информации о исправлении файлов и цифровой обработке.

В заключение, я действительно надеюсь, что на эту проблему будет поставлено больше НИОКР. Это серьезная проблема для нашего современного общества, когда все больше и больше данных оцифровывается, но без каких-либо гарантий, что эта масса информации просуществует более нескольких лет. Это очень удручает, и я действительно считаю, что этот вопрос должен быть поставлен намного дальше, чтобы конструкторы и компании стали маркетинговым ориентиром для создания устройств хранения, которые могли бы работать в будущем.

/ РЕДАКТИРОВАТЬ: читайте ниже для практической рутины курирования .

gaborous
источник
6
Отличный ответ! Это требует гораздо больше голосов.
bwDraco
1
Вы планируете добавить БОЛЬШЕ информации? Рассмотрите публикацию как учебник. :-)
fixer1234
1
@ fixer1234 Да, я планирую добавить больше информации и, что более важно, более подходящую и надежную информацию. Существует множество заблуждений и ошибочно воспринимаемых безопасных решений в области исправления файлов, поэтому есть, что сказать. После публикации этого поста я нашел так много информации, что явно требуется обновление, и я уже собрал все в своих заметках вместе со ссылками. Я не уверен, что SuperUser - лучшее место для публикации всех этих данных, но у меня нет собственного блога: - / Я постараюсь быть максимально кратким.
gaborous
3
DVD + R довольно надежны, если вы не получаете подделок. На CD-R влиял любой свет от инфракрасного до фиолетового (и инфракрасный свет есть везде, иногда его много), на DVD + R влияет только красный или более короткий, что уже более сложно. DVD-диски также имеют чувствительный слой между двумя слоями пластика, а компакт-диски имеют слой чуть ниже поверхности, написанной карандашом !! Диски BD-R самые лучшие: вам нужен фиолетовый или ультрафиолетовый свет, чтобы испортить их, а их поверхность самая прочная. Я бы сказал, пойти с BD-R для практического архивирования с высокой вероятностью успеха после 30 лет. Но вам нужен игрок.
FarO
1
@OlafM да, это правда, каждое новое поколение оптических дисков приносит с собой более надежные технологии, не только в их материале, но и в их технологической установке (например, способ написания и управления канавками / канавками, код исправления ошибок и т. Д. .), но также следует обратить внимание на материал, из которого были сделаны слои, не все оптические диски одинаковы, и обычно (но не всегда) диски архивного класса изготавливаются из более упругих материалов.
Габорист
12

Быстрое продолжение моего предыдущего ответа выше , оно будет сделано более кратким и расширенным за счет дополнительной (но не первостепенной важности) информации и ссылок, которые я не могу добавить в первом ответе из-за ограничений длины 30 КБ.

Поскольку долгосрочное архивирование - это процесс курирования, вот некоторые другие вещи, на которые вы, возможно, захотите обратить внимание, чтобы сделать ваш процесс более эффективным и потреблять меньше времени (и ресурсов):

  • Дедупликация : поскольку единственный способ обеспечить долгосрочное архивирование - это специально спроектированная избыточность, вы хотите избежать бесполезных избыточных данных (например, копий файлов, которые вы извлекли с вашего USB-ключа на архивный жесткий диск, но у вас уже есть готовая копия с вашего основного компьютера!). Нежелательные избыточные данные, которые обычно называют дубликатами, являются плохими, как по стоимости хранения (они занимают больше ресурсов хранения, но вам будет трудно найти их при необходимости), для вашего процесса (что, если у вас разные версии одного и того же файла? Как узнать, какая копия является правильной?) И за ваше время (это увеличит время передачи, когда вы синхронизируете резервную копию со всеми своими архивами). Вот почему профессиональные архивные службы обычно предлагают автоматическую дедупликацию: файлы, которые в точности похожи, получат тот же индекс, и они не будут занимать дополнительное место Вот что SpiderOak делает, например. Есть автоматизированные инструменты, которые вы можете использовать, и файловые системы ZFS (Linux) или ReFS (Windows) могут сделать это автоматически для вас.

  • Расстановка приоритетов / категоризация : как вы видите, долгосрочное архивирование - это длительный процесс, который необходимо регулярно проводить (для проверки работоспособности, синхронизации архивов между носителями, создания новых архивов на новых носителях для замены умирающих, восстановления файлов с использованием кодов, исправляющих ошибки). , и т.д.). Чтобы свести к минимуму затраты времени, попробуйте определить различные схемы защиты в зависимости от приоритета ваших данных на основе категорий., Идея заключается в том, что когда вы перемещаете данные своего компьютера на один из внешних жестких дисков, которые вы используете для долгосрочного архивирования, вы помещаете их непосредственно в одну папку, определяя приоритет резервного копирования: «неважно», «личное», «важное», «критическое» ». Затем вы можете определить различные стратегии резервного копирования для каждой папки: резервируйте полную защиту (например, резервное копирование на 3 жестких диска + облако + коды с исправлением ошибок + BluRays) только для наиболее важных данных, которые вы хотите сохранить на всю жизнь (критическая папка) затем средняя защита для «важных» данных (например, резервное копирование на 3 жестких диска + облако), а затем «личные» просто копируются как минимум на два внешних жестких диска, и «неважно» не получает копию (или, возможно, на один жесткий диск) диск, если синхронизация не слишком длинная ...). Как правило, вы увидите, что " это все то, что вы скачиваете из Интернета или различные файлы и носители, которые вам не нужны (например, программное обеспечение, игры и фильмы). Суть в том, что:чем больше файлов вы хотите сохранить в долгосрочном архиве, тем сложнее (и отнимает больше времени) это будет , поэтому постарайтесь свести к минимуму файлы, которые получают эту специальную обработку.

  • Метаданные - это критическое местоДаже при наличии хороших стратегий курирования обычно есть одна вещь, которая не защищена: метаданные. Метаданные включают в себя информацию о ваших файлах, например: дерево каталогов (да, это всего лишь несколько байтов, если вы потеряете это, вы получите ваши файлы в полном беспорядке!), Имя файла и расширение, метка времени (это может быть важно для вас) и т. д. Это может показаться не таким уж большим делом, но представьте себе следующее: что если завтра все ваши файлы (включая файлы, поставляемые с программным обеспечением и прочим) будут помещены в одну плоскую папку, без имени файла или расширение. Сможете ли вы восстановить нужные файлы из миллиардов файлов на вашем компьютере, проверяя их вручную? Не думайте, что это необычный сценарий, он может произойти так же легко, как если бы вы получили отключение питания или сбой в середине копии: записываемый раздел может стать полностью уничтоженным (печально известный тип RAW). Чтобы преодолеть эту проблему, вы должны быть готовы и подготовить свои данные для восстановления данных: чтобы сохранить метаданные, вы можете объединить файлы с их метаданными, используянетвердые архивы, такие как ZIP DEFLATE или DAR (но не tar). Некоторые файловые системы предлагают автоматическое резервирование метаданных, например DVDisaster (для оптических дисков) и ZFS / ReFS (для жестких дисков). Затем в случае сбоя метаданных вы можете попытаться восстановить разделы с помощью TestDisk или GetDataBack (разрешить частичное восстановление дерева каталогов) или ISOBuster (для оптических дисков), чтобы восстановить дерево каталогов и другие метаданные. В случае неудачи вы можете вернуться к очистке файлов с помощью PhotoRec: при этом будут извлечены все файлы, которые он распознает, но в полном беспорядке и без имени файла или отметки времени будут восстановлены только сами данные. Если вы заархивировали важные файлы, вы сможете восстановить метаданные внутри zip-файла (даже если сам zip-файл больше не содержит метаданных, по крайней мере, внутри файлов все равно будут храниться правильные метаданные). Тем не мение, вам придется вручную вручную проверять все файлы с файлами, что отнимает много времени. Чтобы защититься от этой возможности, вы можете заранее сгенерировать файл контрольной суммы целостности, используя pyFileFixity или PAR2, а затем использовать этот файл контрольной суммы целостности после очистки файла, чтобы автоматически распознавать и переименовывать файлы в зависимости от их содержимого (это единственный способ автоматизировать метафрагмирование файла восстановление данных, потому что файловая очистка может технически восстановить только контент, а не метаданные).

  • Проверьте свои форматы файлов и стратегии курирования для себя : вместо того, чтобы доверять словам статей о том, какой тип формата лучше, чем другой, вы можете попробовать самостоятельно с pyFileFixity filetamper.py или просто самостоятельно, заменив несколько шестнадцатеричных символов в некоторых файлы: вы увидите, что большинство форматов файлов могут разбиваться всего за 3 разных байта. Поэтому вам действительно следует тщательно выбирать форматы файлов: предпочитайте простые текстовые файлы для заметок и используйте устойчивые форматы файлов для носителей (они все еще работают над такими, как код исправления переменных MPEG-4, его реализует ffmpeg, будет добавлен ref ) или сгенерируйте свои собственные коды для исправления ошибок.

  • Читайте статистические исследования, не верьте заявлениям . Как я уже говорил в предыдущем ответе, экстравагантные заявления постоянно выдвигаются в отношении долговечности носителей без каких-либо научных фактов, и вам следует с особой осторожностью относиться к этому. Действительно, в законе нет ничего, что мешало бы производителю хвастаться поддельными и не поддающимися проверке заявлениями о долговечности. Предпочитаю ссылаться на статистические исследования, такие как годовой отчет BackBlaze о частоте отказов жестких дисков .

  • Возьмите долго гарантированный носитель. Гарантия не может вернуть ваши данные, но она говорит вам о том, как производитель оценивает частоту отказов своего продукта (потому что иначе это будет слишком дорого, если скорость слишком высока в течение гарантийного периода).


Обновление схемы, которую я использую: я применяю стратегию расстановки приоритетов, описанную выше, и добавил к своей схеме службу облачного резервного копирования SpiderOak, поскольку у нее есть план с бесконечным хранилищем и он полностью зашифрован, поэтому я сохраняю единоличное владение своими данными. Я НЕ использую в качестве своего единственного носителя для резервного копирования какие-либо из моих данных, это всего лишь дополнительный слой.

Итак, вот моя текущая схема:

  • 3 копии жестких дисков регулярно проверяются и синхронизируются и хранятся в двух разных местах, а 1 всегда на мне (я использую его для хранения мусора и быстрого резервного копирования).
  • SpiderOak с бесконечным планом хранения
  • Диски BluRay для действительно разумных данных, но не слишком больших (я ограничиваю до 50 ГБ данных, которые я могу хранить на этих дисках)
  • pyFileFixity и DVDisaster для папок, которые я действительно хочу сохранить в долгосрочной перспективе.

Мой распорядок дня таков: у меня всегда есть один 2,5-дюймовый жесткий диск USB, который я могу использовать для хранения неважных вещей (перемещения файлов с компьютера на жесткий диск) или для резервного копирования важных вещей (копировать файлы на жесткий диск, но хранить копию на своем жестком диске). компьютер). Для действительно критических вещей я дополнительно активирую онлайн-резервное копирование в SpiderOak (у меня на компьютере есть папка с критическими данными, поэтому мне просто нужно переместить туда важные файлы, и SpiderOak автоматически синхронизирует их). Для ДЕЙСТВИТЕЛЬНО критических файлов я также вычисляю файл для исправления ошибок, используя pyFileFixity.

Подводя итог, я могу хранить их на критически важных вещах: на портативном жестком диске, в облаке SpiderOak и на моем компьютере, поэтому у меня есть 3 копии в любое время с помощью всего двух быстрых действий (копирование на портативный жесткий диск и перемещение в папку SpiderOak). Если одна копия повреждена, я могу сделать большинство голосов, чтобы исправить их, используя pyFileFixity. Это очень дешевая схема (как по цене, так и по времени), но очень эффективная и реализующая все основные принципы цифрового курирования (тройное резервирование, разные копии в разных местах, разные носители, проверка целостности и ecc от SpiderOak).

Затем каждые 3–6 месяцев я синхронизирую свой портативный жесткий диск со вторым жестким диском дома, а затем каждые 6–12 месяцев я синхронизирую свой портативный жесткий диск со своим третьим жестким диском, который находится в другом доме. Это обеспечивает дополнительное преимущество ротации (если через 6 месяцев я пойму, что что-то пошло не так в моей последней резервной копии и удалил критические файлы, я смогу получить их с одного из двух домашних жестких дисков).

Наконец, я записал некоторые очень важные файлы на диски BluRay, используя DVDisaster (и дополнительные файлы ecc с pyFileFixity, но я не уверен, что это было необходимо). Я храню их в герметичной коробке в шкафу. Я проверяю их только раз в несколько лет.

Итак, вы видите, моя схема на самом деле не является большой нагрузкой: ежедневно копирование файлов на портативный жесткий диск и в папку SpiderOak занимает несколько минут, а затем я просто синхронизирую каждые 6 месяцев на один или другой домашний жесткий диск. , Это может занять до дня в зависимости от того, сколько данных нужно синхронизировать, но это автоматизировано с помощью программного обеспечения, так что вам просто нужно позволить компьютеру запустить программное обеспечение, а вы делаете что-то еще (я использую нетбук за 100 $, который я купил только для сделайте это, чтобы я мог одновременно работать на моем главном компьютере, не беспокоясь о сбое моего компьютера в середине копии, что может быть ужасно и разрушить записываемый жесткий диск ). Коды исправления ошибок и схемы BluRay редко используются для действительно важных данных, поэтому это отнимает немного больше времени, но редко.

Эта схема может быть улучшена (как всегда), например, с помощью ZFS / ReFS на жестких дисках : это позволит реализовать автоматическую защиту кода исправления ошибок Рида-Соломона и проверку целостности (и диттоблоков !) Без какого-либо ручного взаимодействия с моей стороны ( вопреки pyFileFixity). Хотя ZFS не может работать под ОС Windows (на данный момент) , есть ReFS, которая позволяет аналогичный контроль исправления ошибок на уровне файловой системы. Также было бы неплохо использовать эти файловые системы на внешних жестких дисках! Портативный жесткий диск с ZFS / ReFS с автоматическим исправлением ошибок RS и дедупликацией должен быть потрясающим! (и ZFS кажется довольно быстрой, поэтому копирование должно быть быстрым!).

И последнее замечание: будьте осторожны с заявлениями о возможностях ECC файловых систем, таких как в этом списке , потому что для большинства он ограничен только метаданными (такими как APFS ) или зеркалированием RAID 1 ( btrfs ). Насколько мне известно, только ZFS и ReFS предоставляют реальные коды исправления ошибок (а не простое зеркальное отображение) как метаданных, так и данных, причем ZFS является наиболее продвинутой в настоящее время (хотя все еще несколько экспериментальной по состоянию на 2018 год), в частности, потому что диски ReFS не могут быть загрузочными ,

gaborous
источник
11

Нет простого решения. Ведение архива - это процесс , а не разовая работа. Все три доступных в настоящее время архивных типа носителей имеют свои плюсы и минусы, однако эти аргументы применимы ко всем типам носителей:

  1. Никто не хранил DVD или жесткие диски в течение 30 или 100 лет по понятным причинам. Так что нет никакого послужного списка, и никто не знает, как СМИ будут стареть. Тесты на искусственное старение мало что доказывают, и вы полагаетесь на тестирование поставщика (не беспристрастное).

  2. Вы должны хранить носитель в контролируемой среде для достижения наилучших результатов (постоянная температура / влажность, слабое освещение и т. Д.). В противном случае медиа-жизнь значительно сокращается.

  3. Вы должны поддерживать аппаратное и программное обеспечение, которое читает носитель (например, интерфейсы SATA могут быть недоступны через 30 лет).

Так что, на мой взгляд, единственное жизнеспособное решение для домашних пользователей или малого бизнеса это:

  1. Храните несколько копий всех данных на разных типах носителей (как на жестких дисках, так и на DVD)
  2. Храните несколько копий всех данных в нескольких местах (дома и в банковском сейфе).
  3. Время от времени копируйте все данные на новые носители (например, копируйте на новый жесткий диск и новые DVD-диски каждые 2 года. По мере роста плотности данных вам, вероятно, понадобится и меньше дисков.
  4. Сохраняйте бумажные копии всех важных данных, если это возможно (например, распечатывайте эти ежегодные общие книги для вашего бизнеса, печатайте самые ценные семейные фотографии и т. Д.)
haimg
источник
1
Интересно, есть ли RAID для DVD ... т.е. если вы храните DVD в течение двух лет, вы можете быть уверены, что 80% из них будут безошибочными, поэтому у вас может быть два диска с четностью. Хммм. я думаю, что usenet использует файлы четности. Возможно, стоит использовать что-то подобное для архивирования DVD / CD / BD.
user606723
1
@ user606723: Это очень хорошая идея! Я предлагаю использовать что-то вроде многотомного архива RAR (если исходные файлы действительно большие) с файлами четности PAR2 ...
haimg
4
Совместимость интерфейса будет серьезной проблемой; Прошло около 30 лет с момента появления IBM XT, но сколько компьютеров сегодня могут каким-либо образом взаимодействовать с жестким диском до ATA? Сколько компьютеров, созданных сегодня, могут даже взаимодействовать с жестким диском PATA без дополнительного оборудования (платы контроллера или USB-адаптера)?
CVn
1
@ user606723 То, что вы называете «RAID для DVD», действительно существует и уже реализовано в форме «кодов с исправлением ошибок», в частности, с использованием CIRC (Cross-Interleaved Reed – Solomon Coding). Вот почему крошечные царапины или пыль не помешают вам читать данные, потому что они уже автоматически исправлены. Однако вы не можете указать желаемый уровень избыточности, поэтому, если вы хотите получить более устойчивый DVD, вы должны использовать стороннее программное обеспечение, такое как DVDisaster , PAR2 или pyFileFixity .
Габорист
5

Я бы пошел микрофильм. Я не знаю, если это все еще производится, но я был бы удивлен, если бы это не было. Негативы на основе серебра сохраняются сотни лет, если хранятся правильно. Конечно, это огромные инвестиции, и они займут целую комнату для фотографирования и просмотра, и это не считая хранения. Так что это только если вы действительно ЗНАЧИТЕ 100 лет + без обслуживания.

Если нет - и есть вероятность, что вы этого не сделаете, если не хотите создать временную капсулу - просто используйте резервные копии жесткого диска и копируйте все это на новый носитель каждые 10-15 лет. На самом деле, нет лучшей страховки от старения носителя, чем копирование всего этого каждые 10 лет или около того. Лучше, чем микрофильм, лучше, чем глиняные таблички, лучше, чем каменные обелиски, утопающие в песке пустыни.

сигмоид
источник
4

До 5 ТБ (или больше?) Вы можете надежно хранить до 30 лет на магнитной ленте или ленточном накопителе. Это время доказано. Записываемые диски Blue-ray могут безопасно хранить ваши материалы до 30 лет, но их емкость составляет около 100 ГБ.

Если у вас есть больше денег, вы бы сохранили их на черно-белой 35-мм пленке. Предполагается, что данные могут быть восстановлены (в зависимости от плотности) за следующие 700 лет. ( Немецкая ссылка на википедию )

tuergeist
источник
Для записи, запись на 20-50 дисков Blu-Ray не исключена.
user606723
Я никогда не слышал об архивации данных на 35 мм, хотя принцип очевиден. Какова плотность?
Шинрай
@Shinrai: я не знаю, плотность пленки, извините
Tuergeist
Вероятно, вы можете измерить плотность где-то между 1 и 10 мегабитами на кадр.
Даниэль Р Хикс
3
LS-9000 ED от Nikon сканирует пленку с разрешением 4000 точек на дюйм, обеспечивая 21,4 Мп / кадр при 35 мм (24 x 36 мм). Если вы можете использовать 1/10 от этого для фактического хранения данных (учитывая недостатки пленки, ограничения фокусировки и разрешения в оптике на обоих концах и т. Д.), То это 2 МБ / кадр или что-то вроде 10 МБ для рулона пленки с 36 экспозициями и чистый черный / белый. Если ограничение сканера 4000 точек на дюйм является ограничивающим фактором, это 100 МБ для рулона 36-exp. Конечно, вам все равно придется каким-то другим способом сохранить информацию о том, как читать данные, потому что невооруженным глазом кадры, вероятно, будут выглядеть довольно равномерно серыми.
CVn
2

Я рекомендую никелевый диск диаметром три дюйма с микроскопической информацией, выгравированной на его поверхности.

http://rosettaproject.org/blog/02008/aug/20/very-long-term-backup/

датчанин
источник
3
Должно ли это быть ровно три дюйма? У меня есть удобный никелевый диск диаметром 75 мм ...
CVN
Единственная проблема этого подхода заключается в том, что он может хранить только неподвижные изображения (сканы). Но в настоящее время это лучший подход для ОЧЕНЬ длительного хранения (до 2000 лет, да!). Еще один недостаток, отмеченный некоторыми комментариями в блоге, заключается в том, что он может хранить только около 50 МБ данных.
gaborous
1

Для такого рода промежутков времени все, что уже есть на бумаге (или может быть легко напечатано без потери информации), лучше всего хранить в такой форме. Просто помните о бумаге и тонере, которые вы используете для печатной копии.

Что касается других, я не знаю ни одного используемого в настоящее время цифрового носителя, который бы работал в течение этих промежутков времени. Если вы тратите время (и, следовательно, деньги) на обновление своей коллекции, то магнитная лента может быть жизнеспособным вариантом, но даже в этом случае вам потребуется некоторая избыточность, поскольку вы можете просто узнать, что одна лента испортилась (или может случиться так, что стример просто искажает ленту при чтении).

И даже если вы сможете заставить действительный носитель выдержать испытание временем, вы все равно столкнетесь с вопросом, сможет ли какая-либо программа прочитать носитель через 30 лет, не говоря уже о 100 годах.

Юха Лайхо
источник
1
Магнитная лента подвержена ряду режимов отказов: от «распечатки» до размагничивания с течением времени до простого выпадения оксида с ленты.
Даниэль Р Хикс
1

Это правда, что обычные CD-R и DVD-R недостаточно надежны для архивирования важных данных. Но вы можете получить DVD, которые не так быстро разлагаются:

https://www.google.com/search?q=archival+dvd-r

Исаак Рабинович
источник
Спасибо за указание на эту опцию, хорошую альтернативу M-дискам, которая доступна практически любому, у кого есть DVD-рекордер.
gaborous
«Verbatim Gold Archival DVD-R был [...] признан самым надежным DVD-R в ходе длительного долговременного стресс-теста, проведенного известным немецким журналом c't (c't 16/2008, стр. 116- 123) [...] достижение минимального срока службы 18 лет и средней долговечности от 32 до 127 лет (при 25 ° С, 50% влажности). Ни один другой диск не подходил близко к этим значениям, второй лучший DVD-R имел минимальный срок службы только 5 лет ",. linuxtech.net/tips+tricks/best_safe_long-term_data_storage.html
gaborous
1

Я читал, что «M-Disc» создал DVD, который нуждается в специальном устройстве записи, но который читается на обычных устройствах чтения DVD. Они утверждают, что предполагаемая продолжительность жизни составляет 1000 лет, заявив, что это не может быть точно проверено. Длительное воздействие солнца, царапин, многократного использования и т. Д., И диск пригоден на 100%. Я был бы заинтересован в любой обратной связи от любого, кто сталкивался с этой системой.

Вот выдержка из Dell, которая, возможно, устанавливает привод M-Disc в свои новые ноутбуки / ПК.

Компания M-DISC Ready превращает данные лазерного травления в неорганический материал, похожий на камень, чтобы предотвратить потерю данных, обеспечивая безопасность ваших файлов и возможность их хранения до 1000 лет, заявляет компания.

В отличие от всех других записываемых DVD-дисков, в которых для хранения данных используются органические красители, диски M не со временем исчезают и не портятся.

декан
источник
Вместо того, чтобы делать репост с дополнительной информацией, вы должны были отредактировать исходное сообщение.
Казарк
Можете ли вы привести цитату со ссылкой или что-то? Кроме того, вы можете использовать его >для форматирования как кавычки.
Казарк
1

Вам необходимо смешивать различные технологии, места и среды для обеспечения долговременного резервного копирования:

  • Запись на DVD - Bluray на низкой скорости. Держите их в условиях низкой освещенности, низкой температуры, низкой влажности, без царапин.
  • Сохраните копию в RAID 1, Raid5, Raid6 или Raid10.
  • Храните другую копию на внешнем жестком диске
  • Хранить копию в облаке (карбонит, краш-план)
  • Сохраните копию технологии M-Disc (устройства записи дисков Mdiscs и Mdisc), недоступные на Amazon.com по очень выгодным ценам. Производитель заявляет, что они могут хранить данные в течение 1000 лет.
Alex
источник
Я вижу, что три из ваших пяти пунктов - это вариации одной темы: магнитное хранилище на жестком диске. Что касается вашего последнего замечания, проблема заключается не столько в том, как долго носители будут хранить данные (и, по крайней мере, производители жестких дисков обычно приводят числа, которые намного лучше, чем реальность), а в том, как долго будет доступно оборудование для чтения данных. или знание того, как их сделать, будет доступно. Все ваши предложенные методы высокотехнологичны. Предположим, что викинги хранили данные на Blu-Ray дисках; Каковы шансы, что мы будем знать, как интерпретировать эти данные сейчас?
CVN
@ MichaelKjörling Храните дополнительный компьютер со всеми необходимыми периферийными устройствами. Используйте память ROM, если это необходимо.
QuyNguyen2013
1

Как уже упоминалось, есть новая технология под названием M-Disc. Они очень надежны: http://www.zdnet.com/torture-testing-the-1000-year-dvd-7000023203/ Мы начали использовать их для защиты образов дисков производственных машин. На рынке уже есть Blu-Rays. Единственный недостаток - они медленнее, чем классические B-RD.

Томаш Шкудларек
источник
У меня аналогичная потребность в OP, и после прочтения я думаю, что я попробую это решение, спасибо за указание на эту технологию! Требуется только купить устройство записи DVD или Blu-ray, совместимое с M-Disc, и LG уже произвела много, так что это также довольно доступно и недорого!
gaborous
1
На самом деле кажется, что M-диски не так надежны, как они притворяются. Независимое французское исследование, проведенное Archives de France (официальным учреждением архивирования данных Франции), чтобы найти лучшую поддержку архивирования данных, и они обнаружили, что M-диски на самом деле не выдерживают влажность и температуру (ускоренное старение). Я выложу здесь ответ с более подробной информацией.
gaborous
0

Если вы хотите иметь метод для решения этой проблемы, вам следует изучить поле Цифровое сохранение.

http://en.wikipedia.org/wiki/Digital_preservation

Цифровая консервация - это метод сохранения цифровых материалов, чтобы они оставались пригодными для использования, поскольку технологические достижения делают устаревшие спецификации аппаратного и программного обеспечения устаревшими (википедия).

Существует также эталонная модель: OAIS http://en.wikipedia.org/wiki/Open_Archival_Information_System

Есть несколько открытых и коммерческих решений для достижения этой цели. Библиотеки и архивы используют эти технологии для сохранения оцифрованных книг в течение длительного периода времени.

AGM
источник
Хранение данных в течение длительного периода времени не означает, что сами средства массовой информации выживают в течение такого долгого времени, как уже указывалось в нескольких высоко голосуемых ответах. Одной из основных составляющих сохранения цифровых данных является миграция данных по мере старения медиа и устаревания.
CVn
Спасибо, Майкл. Только указывая на OAIS как на метод достижения реальной цели.
AGM
Это хороший ответ для стратегий цифрового курирования, но на самом деле не для того, какой носитель информации следует использовать. Модель OAIS очень хороша и действительно используется большинством национальных библиотек и архивов в мире, но я считаю ее слишком сложной, теоретической и содержащей ненужные метаданные для индивидуального использования. Модель BagIt немного практичнее и удобнее в использовании, но все же довольно сложна, где может быть достаточно простых инструментов, таких как PAR2 или pyFileFixity .
gaborous
0

Ваш ответ прост:

https://wiki.openstack.org/wiki/Cinder

Openstack - это система почти «бессмертного» хранилища, поскольку вы можете модернизировать или заменить отказные узлы новыми даже с использованием технологий, неизвестных нам в настоящее время. Ваши данные хранятся как минимум в 2, до 5 местах одновременно в этой системе, поэтому полные заметки о хранении могут дать сбой, а ваши данные все еще присутствуют. Весы до 50 ПБ (проверено) - 110 ПБ. По сути, это добавляет SW Layer на ваше оборудование, и это делает ваше хранилище бесконечно живым. Он преодолевает наш текущий звуковой барьер наборов рейдов благодаря ограничениям времени восстановления очень больших наборов рейдов. Затраты составляют около 50% традиционных систем хранения Raid. Я знаю систему от FUJITSU, в которой она используется в качестве эталонной архитектуры: CD10000

Томас Хольцкнехт
источник
1
Теперь вам просто нужно поверить в эту компанию :-)
einpoklum - восстановить Монику
-1

Практичное долговременное хранение данных с использованием современных технологий 2014 года:

... и это то, что я делаю.

Получите два мультитерабайтных диска, например два диска по 3 ТБ каждый. Вызовите один TB-1, а другой TB-2. Сделайте резервную копию всего, что касается ТБ-1 После года резервного копирования в TB-1 переформатируйте TB-2 и скопируйте TB-1 в TB-2. Затем на следующий год сделайте резервную копию ТБ-2. После этого года переформатируйте TB-1 и скопируйте TB-2 в TB-1, тем самым снова запуская двухгодичный цикл.

Переформатирование восстанавливает магнитную силу секторных маркеров. И копирование восстанавливает магнитную силу данных.

Тот же принцип может быть применен к резервному копированию на магнитную ленту и резервному копированию на компакт-диске или большинству других резервных копий. Но компакт-диски настолько неудобны, потому что они могут испортиться менее чем за год, и вам нужно так много из них, чтобы сделать резервную копию всего. Таким образом, запись копий всех резервных компакт-дисков каждые 5 месяцев - это слишком много работы. До сих пор я могу хранить всю свою жизнь на одном мульти-терабайтном диске.

Indinfer
источник
2
CD испортились менее чем за год? Вы говорите, что у вас нет компакт-диска более 1 года? У меня есть данные и аудио CD более года, я могу вас заверить, и они работают отлично!
Дейв
1
У меня есть диски 1998 года, которые до сих пор работают нормально. Независимо от того, что мы знаем, что это неправда, с чего вы взяли, что это так? Можете ли вы получить информацию? Благодарю.
Мэтью Уильямс
Нет необходимости перезаписывать данные на жестком диске, вам нужно только обеспечить электропитание для поддержания (или восстановления) электромагнитного поля. Перезапись данных для длительного хранения необходима только для карт памяти SD / Compact и SDD.
Габорист