Экономичное, долгосрочное архивирование данных видео и изображения? ~ 50 ТБ

16

Моя лаборатория находится в процессе настройки небольшого сервера, который хранит данные (в основном данные видео и изображений, а также несколько документов) для проекта, над которым наша группа в данный момент работает. Исторически, после того, как исследовательский проект заканчивается, данные случайно оказываются архивированными на одном жестком диске, или большой куче DVD-дисков (или компакт-дисков в старину), и / или некоторые из видео оказались в кассетах Sony DV или даже VHS ленты (эта лаборатория была активна с начала 90-х), ИЛИ смесь всего вышеперечисленного ...

Вопрос: Как лучше всего: (1) объединить их ВСЕ в один и тот же формат и носитель данных, и (2), каков наилучший носитель для долгосрочного архивирования таких данных для очень случайного доступа (скажем, 30+ лет?)? К сожалению, у нас нет бюджета на уровне предприятия (мы всего лишь ~ 10 человек лаборатории), поэтому не можем делать вещи, которые стоят сотни тысяч долларов.

Благодарность!

PS Учитывая, что наше старое видео и изображения имеют меньшее разрешение, но последние огромны, я думаю, что мы говорим о 30-40 ТБ для действительно старых данных, еще 10-20 ТБ для последних данных, затем ежегодные добавления около 5 ТБ. ,

HPY
источник

Ответы:

22

К сожалению, нет лучшего способа для вас. 30-летняя архивация цифровых медиа - очень сложная проблема, требующая постоянных инвестиций. Единственными форматами, которые гарантированно будут читаться через 30 лет, являются ASCII и UTF8, которые не являются видеоформатами. Изменяются форматы хранения, 8 дорожек с катушек, которые мы использовали 30 лет назад, почти невозможно прочитать в наши дни, даже если данные все еще находятся на ленте (есть интересная история о том, как НАСА восстанавливает 40-летний накопитель на магнитной ленте) чтобы получить на некоторых недавно восстановленных / обнаруженных лент данных Apollo). Лучше всего ставить периодические, я бы сказал, каждые 5 лет оценки вашей архивной среды с достаточным бюджетом для перевода старых форматов в новые.

Вы, наверное, знаете лучше, чем я, но видео пейзаж быстро меняется. Онлайн редактирование в реальном времени теперь возможно, где это было возможно только на серьезно хорошем комплекте даже 10 лет назад. Кто знает, как все будет выглядеть через 30 лет.

  • Установите свое архивное окно на 5 лет.
    • В ближайшей перспективе достаточно большого массива хранения (
      • Большой и медленный диск объемом 50 ТБ можно купить менее чем за 70 тыс. долл., возможно, гораздо дешевле.
      • Накопитель на магнитной ленте LTO5 и 50 лент (стоимостью более 50 ТБ) можно приобрести менее чем за 15 тысяч долларов.
  • В каком формате вы храните видео, зависит от вас.
  • Начните находить и конвертировать все ваши старые вещи в это новое хранилище.
  • По истечении 5 лет проведите еще одну полную оценку вашей архивной среды.
    • Какие форматы вы используете?
    • Какие новые форматы?
    • Какие кодеки кажутся тупиками, и какие носители хранятся в таком виде?
    • Решите, как вы собираетесь перейти на более новые методы хранения (форматы данных, диск / лента / что-то еще) и тратите соответственно.
  • Повторите 6 раз.

Это должно привести вас к 30 годам.

sysadmin1138
источник
+1, если вы действительно пытаетесь быть дешевым, вы, вероятно, можете делать это каждые 10 лет. Дискеты ATA-66 и 100 были предпочтительным HD десять лет назад, и до сих пор существуют технологии для подключения к ним. Но вокруг уже есть компьютеры, у которых нет заголовков IDE, десятилетняя технология становится сомнительной.
Крис С
6
+1 за хорошие моменты при копировании, но -1 за утверждение, что форматы станут нечитаемыми. Как только данные будут доступны на копируемом носителе, эти файлы вряд ли станут недоступными для воспроизведения, если они не находятся в ОЧЕНЬ странном формате. Архивирование в нечто очень популярное, например MPEG2, весьма вероятно, будет долговременным форматом. Транскодирование видео с потерями - процесс с потерями. Это не должно быть сделано. Нам не нужно ничего, чтобы поддерживать основной видеокодек вокруг себя ...
Пол Макмиллан,
@Paul Спасибо за советы. В последний раз я регулярно тусовался с видео людьми 7 лет назад, так что я ржавый.
sysadmin1138
Большое спасибо за подробную оценку и советы! Мы сделаем все возможное с нашим, к сожалению, ограниченным бюджетом на ИТ. Так рад, что вы все и serverfault.com здесь, чтобы помочь.
2010 г.
да, мы нашли способ Тем не менее, у меня нет проблем с воспроизведением 17-летних файлов AVI из Windows 3.1 дней. Хитрость заключается в выборе форматов, которые уже широко используются.
Пол Макмиллан
11

Я полностью согласен с постом sysadmin1138 во всех отношениях, но не думаю, что у вас будет бюджет, чтобы действительно достичь того, чего вы хотите.

Вам нужно создать 5 основных функций;

  • стандартизированная политика в отношении контента и каталогов - я знаю, что вы хотите хранить все в одном формате, но вы действительно должны рассмотреть два - PDF для изображений и H.264 для видео - оба формата с долгосрочной поддержкой и многоплатформенным кодом, который почти безусловно, будет поддерживаться той или иной стороной в течение 25-50 лет в их нынешнем виде просто благодаря существующему использованию во всем мире.
  • каталог или CMS для индексации и публикации контента.
  • система загрузки контента - это займет все ваши медиа, упакует, закодирует, сохранит и обновит каталог для каждого нового фрагмента контента. Вам также потребуется ручная или автоматическая проверка качества контента.
  • основное хранилище контента - в нем будет два основных блока хранения; один маленький для хранения исходного контента, пока он транскодируется / проверяется, и гораздо больший блок для хранения контента «рядом». Это единственное допустимое использование RAID 6, с которым мне приходилось сталкиваться, но попробуйте использовать диски корпоративного качества с рабочим циклом 24x365.
  • Система долгосрочного резервного копирования - это то место, куда будут потрачены реальные деньги, вам нужно будет выбрать поставщика, который предлагает действительно долгосрочное резервное копирование. Если бы я делал это прямо сейчас, я бы по-прежнему использовал магнитную ленту на диске исключительно из-за долговечности данных, возможно, у IBM, поскольку у них большой опыт в этой области. Вы также должны учитывать, что вам необходимо регулярно выполнять восстановление на ленту и проверять данные, а это означает, что вам потребуется третий блок хранения, по крайней мере, такой же большой, как и самая большая лента на вашем компьютере, и системы, конечно же, для проверки. Кроме того, вам нужно убедиться, что используемое вами программное обеспечение для резервного копирования будет работать долгое время, что-то вроде TAR на * nix, скорее всего, будет какое-то время, но функционально может не дать вам того, что вы хотите. убедитесь, что ваш поставщик ленты не пропустил это.

То, что вы хотите сделать, может быть сделано, я делал это сам несколько раз за последние два десятилетия или около того, но, боюсь, ни одна из них не была дешевой.

Удачи.

Chopper3
источник
PDF для изображений кажется довольно ужасным способом сделать это. Да, абсолютно PDF для документов, но сохраняйте изображения в формате TIFF или JPEG в зависимости от формата вывода. Возможность читать их вряд ли исчезнет.
Пол Макмиллан
Спасибо за советы! Если бы я мог отметить два принятых ответа, я бы за это. :)
hpy
1
все нормально, пенюань, 1138 и бутоны;)
Chopper3
2
Честно говоря, сложность любой системы CMS заключается в том, что она, вероятно, будет первой и самой устаревшей частью системы. Вам было бы лучше потребовать, чтобы все написали текстовый файл ASCII с некоторыми базовыми описаниями и сохранили его со своими необработанными данными. Любая CMS или автоматизированная система устареет в масштабе нескольких лет.
Пол Макмиллан
3

Другие дали хороший совет о том, как сделать резервную копию ваших медиа. Я бы посоветовал вам потратить некоторое время на изучение руководящих принципов библиотеки конгресса:

http://www.digitalpreservation.gov/formats/index.shtml

Вы также можете создать дешевый массив ZFS для whitebox. Возможно, вы могли бы сделать что-то, чтобы удовлетворить ваши потребности менее чем за 10 тысяч долларов. По мере того, как диски умирают, заменяйте их более крупными, и, таким образом, емкость вашего хранилища увеличивается по мере генерирования данных. Это, вероятно, сохранит вас на долгое время, и вы можете заменить его на устройство с большей емкостью, когда оно устареет. Преимущество заключается в том, что ваши данные находятся в сети (и поэтому к ним можно обращаться по мере необходимости), и они относительно хорошо защищены от битрота, что является серьезной проблемой, когда у вас так много данных.

Приличный вариант сборки был собран здесь:

http://www.zfsbuild.com/

Пол Макмиллан
источник
2

Как бы это ни было сложно для технологов, я бы рекомендовал немедленно прекратить мысли о дисках и технологиях. Разбейте проблему своего бизнеса на вещи, по которым вам нужно принимать решения.

Пример:

  • Как вы собираетесь работать с преобразованием аналоговых / разных цифровых форматов магнитных лент в цифровые носители, которые можно хранить в каком-то цифровом хранилище?
  • Как вы собираетесь управлять контентом и соответствующими метаданными? Хранить легко - вы можете поместить все на ленту LTO и сохранить ее в старой соляной шахте, но у вас не будет доступа к данным.
  • Вы заново изобретаете колесо? Если вы в университете, есть ли уже решения для управления контентом централизованно? Или, если вам нужно купить / построить собственное управление контентом, есть ли централизованная инфраструктура, которую вы можете купить? (Лента, хранилище объектов, SAN)
  • Каковы реальные бизнес-требования? Что вы действительно хотите сохранить и почему? Часто, когда вы действительно углубляетесь в суть проблемы, настоящие требования к долгосрочному хранению действительно применяются только к небольшому подмножеству данных.
duffbeer703
источник
1

Имейте в виду, что если вы храните данные в формате с потерями, а затем конвертируете в другой формат с потерями, а затем в другой, качество вашего видео будет ухудшаться с каждым переходом.

Далее идет речь об аудио, но в целом применяется то же самое:

Вы можете конвертировать любой аудиоформат в Ogg Vorbis. Однако преобразование одного формата с потерями, такого как MP3, в другой формат с потерями, например, Vorbis, обычно является плохой идеей. И кодировщики MP3, и Vorbis достигают высоких коэффициентов сжатия, отбрасывая части звукового сигнала, которые вы, вероятно, не услышите. Однако кодеки MP3 и Vorbis очень разные, поэтому каждый из них будет отбрасывать разные части аудио, хотя, безусловно, есть некоторые совпадения. Преобразование MP3 в Vorbis включает в себя декодирование файла MP3 обратно в несжатый формат, такой как WAV, и повторное сжатие его с помощью кодера Ogg Vorbis. В декодированном MP3 не будет частей оригинального аудио, которые кодировщик MP3 выбрал для удаления. Затем кодер Ogg Vorbis отбрасывает другие аудиокомпоненты при сжатии данных. В лучшем случае, Результатом будет файл Ogg, который будет звучать так же, как ваш оригинальный MP3, но, скорее всего, результирующий файл будет звучать хуже, чем ваш оригинальный MP3. Ни в коем случае вы не получите файл, который звучит лучше, чем оригинальный MP3.

Поскольку многие музыкальные проигрыватели могут воспроизводить файлы как MP3, так и Ogg, нет причин для того, чтобы вам приходилось переключать все ваши файлы в один или другой формат. Если вам нравится Ogg Vorbis, мы рекомендуем вам использовать его при кодировании с оригинальных аудиоисточников без потерь (таких как CD). При кодировании с оригиналов вы обнаружите, что вы можете создавать файлы Ogg меньшего размера или лучшего качества (или обоих), чем ваши MP3.

(Если вам абсолютно необходимо конвертировать из MP3 в Ogg, в Freshmeat есть несколько сценариев конвертации.)

http://www.vorbis.com/faq/#transcode

Поэтому, вероятно, лучше выбрать формат без потерь, потому что, выбрав один формат с потерями, вы застряли с ним.

наряжать
источник
3
Видео без потерь в настоящее время не практично для хранения. Просто слишком дорого архивировать концерты за минуту. Выберите кодек с потерями, которым вы сейчас довольны и который широко используется, и оставьте в нем свои медиа.
Пол Макмиллан
Спасибо за хорошее замечание о без потерь, мы обязательно подумаем над этим.
hpy
1

Возможно, мне чего-то не хватает, не могли бы вы все закодировать, используя открытый формат, в котором доступен исходный код для кодеков, а затем просто вставить все это в Amazon S3?

Таким образом, Amazon придется беспокоиться о реальном хранении данных, и, если не будет компьютеров, способных скомпилировать C / C ++ через 30 лет, вы сможете получить информацию ...

Богатый
источник