Долгосрочное хранение данных, важных для бизнеса

16

Это действительно сложный вопрос, и в некоторой степени это не техническая проблема, и, возможно, здесь не место, но

Ошибка сервера предназначена для системных администраторов ... которые управляют или обслуживают компьютеры на профессиональном уровне

И я делаю .. и это одна из моих задач .. Во всяком случае.

Представьте, что у вас более 5000 двусторонних страниц формата А4. Данные компании, все критически важные для бизнеса.
Вам нужно как-то это подтвердить. На данный момент предлагаются следующие решения:

  1. PDF -> Интернет-хранилище
  2. PDF -> DVD / BluRay / Tape
  3. PDF -> Портативный HDD / SSD / Флешка.
  4. Купить / арендовать / нанять / украсть большой ксерокс и сделать копии.
  5. ???

Непосредственные проблемы с вышеперечисленным:

  1. Что, если партнер по хранению обанкротится?
  2. DVD гниют со временем. Ленты аналогично.
  3. Они тоже ломаются со временем.
  4. Дорогие. Медленный. Толстая. Не подходит для деревьев.

Вопросы):

Что является золотым стандартом для долгосрочного и среднесрочного хранения и архивирования данных? Вы решили аналогичную проблему на рабочем месте?

После первоначальной загрузки существует некоторое требование добавлять в коллекцию примерно 100 страниц в месяц. Поиск должен быть возможен, легко, но, вероятно, нечасто.
В идеале я хотел бы гарантировать, что решение будет работоспособным еще долго после того, как я покину компанию, и что для его обслуживания не потребуется огромное количество, поэтому хранение многих DVD-дисков не только не идеально, но и не идеально. хорошее долгосрочное решение.

Хотя просто сделать бумажные копии, безусловно, проще всего, это не самый экологичный, не слишком долгий путь. Это также не очень управляемо, трудно искать, индексировать и так далее. В сочетании с тяжелым, и физически трудно хранить.

Мне в принципе нравится идея хранить все в электронном виде, но сам механизм этого должен быть прозрачным и простым. Я действительно не хочу нести ответственность за это навсегда, поддерживая офисных пользователей, когда они взбираются и теряют документы. Я также не хочу полагаться на одного поставщика систем хранения, что если Dropbox (у нас есть решение для резервного копирования в Интернете, но у нас нет Dropbox), может обанкротиться или иным образом пережить катастрофическое событие, сколько предприятий кто пользуется их услугами, будет ли ручей, без весла?

Здесь есть некоторая бюджетная гибкость, но я подозреваю, что все, что стоит больше, чем наша текущая онлайн-резервная копия (например, 2500USD / год), будет рассматриваться менее выгодно, чем просто положить его в коробку из-под кровати. Что, несомненно, произойдет, если я ничего не сделаю и уйду в отставку завтра.

Есть идеи?

-Редактировать-

Причина для этого двоякая.

1) обеспечить разумную надежную резервную копию документов, важных для бизнеса, на случай, если офис сгорит.

2) соблюдать законы архивирования данных WRT и налогового законодательства для предприятий и так далее.

Изменить 2:

Наличие какого-либо механизма для индексации документов также было бы чертовски полезным.

Том О'Коннор
источник
Я создал быстрый скрипт для работы с PDF-> Txt с помощью ghostscript и gocr. Не обращая внимания на впрыскивание всего в базу данных SQLlite для создания интересного индекса для данных.
Том О'Коннор
Избыточность (цифровых носителей) и поддержание избыточности на протяжении многих лет может быть вашим лучшим другом.
Вортико

Ответы:

5

Хранение данных в формате, подобном PDF, вероятно, безопасно, потому что есть бесплатные инструменты для их чтения. Объем данных, о которых вы говорите, довольно мал (1200 страниц в год), поэтому даже при разрешении сканирования 300 точек на дюйм вы говорите только о десятках гигабайт в год.

Однако проблема с физическим запоминающим устройством никогда не исчезнет. Какой бы носитель вы не использовали для хранения электронных данных (ленточный, оптический и т. Д.), В конечном итоге потребуется обновить его до более нового носителя. Запланируйте и заложите бюджет для того, чтобы "выкинуть данные" в новые форматы, поскольку новые форматы заменяют старые форматы.

Вероятно, я бы выбрал оптический носитель в качестве первого выбора просто потому, что у вас так мало данных. Я также планирую записывать 3х дубликаты всего и обновлять медиа каждые 2–3 года.

Если оптический носитель слишком мал, я бы использовал ленту LTO и обновлял носитель каждые 4 - 5 лет. Это будет довольно дорого, однако, для такого небольшого количества данных.

Эван Андерсон
источник
DVD? Или Blu-Ray? BR является разумным форматом для данных еще?
Том О'Коннор
1
@ Том О'Коннор: Мне они кажутся одинаковыми. Я бы посмотрел на стоимость, чтобы принять это решение. В настоящее время существуют Blu-Ray бланки «архивного уровня», поэтому с технической точки зрения это выглядит как жизнеспособный формат. (Производители, говорящие о том, что срок службы носителей Blu-Ray составляет 200 лет, не дают мне больше уверенности, чем те, кто говорил, что срок годности архивных носителей DVD составляет 100 лет ...)
Эван Андерсон,
У меня есть несколько компакт-дисков Kodak GOLD примерно 1998 года или около того, и они все еще читаемы. У меня также есть несколько бесплатных, где слой красителя отделился, и они прикручены.
Том О'Коннор
Я не утверждаю, что нет разницы между архивными и неархивными СМИ. Я просто говорю, что Blu-Ray архивные носители по сравнению с DVD архивными носителями не кажутся мне чем-то особенным. Сравнение архивной оценки и «веретена 100 за 20 долларов» - это совсем другая история.
Эван Андерсон
Одним из элементов, не упомянутых, было твердотельное хранилище (флэш-накопители USB): больше оптического, меньше LTO. Скорее всего, USB будет работать в течение, по крайней мере, еще одного или двух десятилетий, а флэш-накопитель емкостью 16 или 32 ГБ (или два, или три) довольно дешев с точки зрения стоимости архивирования. Так как это будет однократной записи-чтения Многие вам не придется беспокоиться о SSD клетки изнашиваются, так что вы теоретически могли бы держать палочки в течение 5 или более лет , в несгораемом сейфе.
voretaq7
6

Существуют специальные системы, которые используют DVD-диски для внутреннего использования и периодически переносят данные на новые носители. Посмотрите цифровые сохранения.

Поскольку требования к хранилищу растут довольно быстро, желательно все равно переключаться на новый, более крупный тип носителя каждые несколько лет.

Предполагая, что вы получите данные в бумажном виде, вам необходимо:

  1. Перечислите данные при входе в почту. Это может означать предоставление каждому листу уникального штрих-кода.
  2. Сканируй это. Используйте идентификатор штрих-кода в качестве имени файла. Архив бумаги.
  3. Архивировать данные. Поместите данные в ревизионную систему безопасного архивирования. Файловый сервер не будет достаточно хорош, потому что что-то может случиться с файлами, если они доступны для записи.
  4. Сделать чтение доступным для других систем.

В случае клиентов это все счета для крупных организаций, которые необходимо перевести в онлайн-систему (SAP). Хранилище архива прошло несколько итераций. В настоящее время они переходят на синий луч.

С другой стороны, в настоящее время все идет на диски, так что, возможно, что-то вроде этого было бы вашим путем: http://www.eurostor.com/german/iTernity.D.php

Posipiet
источник
Имейте в виду, что большинство DVD-R (и др.) Длится всего несколько лет до деградации. Дорогие «архивные» вещи хранятся дольше, если хранятся в соответствии с инструкциями.
Крис С
Как и большинство дисков, серверов, файловых систем или форматов документов. Архивирование означает перемещение данных. Попробуйте прочитать PDF через 20 лет. Вы помните, какой стандарт был 10 лет назад? У нас нет ничего, что близко подходит к бумаге, правда. За исключением копирования и вставки ...
Posipiet
Чистые текстовые документы все еще читабельны.
Барт Сильверстрим
Есть бесплатные инструменты для чтения PDF-файлов. Пока они "простая ваниль", я бы не слишком волновался. TIFF тоже хороший вариант.
Эван Андерсон
3

Наше решение: Сканирование в PDF -> Резервное копирование на ленту

У нас есть сканер документов, который обрабатывает ~ 30 страниц в минуту и ​​производит файлы PDF в формате OCR. Мы поддерживаем эти данные до ленты (особенно LTO4), срок годности которой составляет от 50 до 100 лет (найти накопитель на магнитной ленте может быть сложно в течение определенного периода времени, но есть места для восстановления данных, которые по-прежнему будут восстанавливать 8-дюймовые дискеты).

Крис С
источник
2
Мне пришлось погуглить на 8 "дискете ....
Голокриптик
Я сохраняю свои резервные копии с Mac OS 7.5. Но диск сломался, носитель программ резервного копирования потерян. Мне удалось переустановить Mac, но я не могу прочитать ленту, потому что у меня нет программы резервного копирования. И, честно говоря, я даже не помню его имени. Да, лента может длиться 100 лет. Но читатель этого не делает.
Posipiet
@Holocryptic: Всего несколько месяцев назад я выбросил нераскрытую коробку с жесткими секторами 8 "дискет Verbatim.
user9517
1
@Holocryptic: NSFW! NSFW !!
Барт Сильверстрим
@Posipiet, я думаю, что я рассмотрел тот факт, что диски не вечны, но есть компании, которые специализируются на восстановлении данных практически с любых широко используемых носителей.
Крис С
3

Я думаю, что новый сервис Amazon Glacier является интересным предложением в этом пространстве.

Amazon Glacier оптимизирован для данных, к которым редко обращаются и для которых подходит время поиска в несколько часов. Благодаря Amazon Glacier клиенты могут надежно хранить большие или малые объемы данных всего за 0,01 доллара США на гигабайт в месяц, что является значительной экономией по сравнению с локальными решениями.

ewwhite
источник
2
Затраты на извлечение безумно огромны.
Том О'Коннор
2

Шаг первый, Резервное копирование: OCR документы, а затем перегруппировать все слова в серию романов о католической церкви, Opus Dei и Templars. У вас должно быть достаточно входных данных для примерно 10 романов и еще около одного в год или около того навсегда. Вести справочную таблицу, в которой хранятся слова исходного местоположения в исходных документах (в исходном порядке) и его окончательное местоположение в романах; хранить повторяющиеся слова в одной записи в таблице. Заключите сделку и получите миллионы опубликованных романов. Используйте доход от продажи книг, чтобы финансировать OCR и операцию перестановки слов. Измельчите оригиналы документов и продайте их как постельные принадлежности хомяка. Иногда может потребоваться разместить заказы на распятие, антиматерию или билеты на самолет в экзотические места, если вы обнаружите, что вам не хватает словарного запаса во входных документах.

Шаг второй, Восстановление / доступ: вам не нужно хранить копии данных - все, что вам нужно, это ваша справочная таблица и подержанный книжный магазин.

Поскольку таблица поиска - это ваша единственная точка отказа, вам все равно нужно будет это подтвердить. Благодаря используемой схеме кодирования Хаффмана это будет довольно мало по сравнению с вашими входными документами, поэтому, вероятно, может быть скопировано на DVD. Для автономного резервного копирования сядьте перед камином и прочитайте справочную таблицу, одновременно снимая видео. Поместите свое видео-представление о слиянии искусства и технологий в галерею Тейт Модерн на постоянной экспозиции.

Дункан Лок
источник
1

Покупать слишком рано, но похоже, что HDS разработала механизм постоянного хранения данных на основе кварца - возьмите ЧИТАТЬ .

Chopper3
источник
1
Я столько раз слышал, как постоянство претензий, что я никогда не поверю в это, и никто из нас не проживет достаточно долго, чтобы когда-нибудь увидеть это доказанным. Предсказания постоянства абсолютно бесполезны и неизменно становятся ошибочными.
Джон Гарденье
-2

Я должен выдвинуть Humyo.com (купленный Trend Micro - второе имя которого - безопасность)

Они шифруют все пользовательские данные, а их серверы размещаются в Банке Англии в хранилище.

Довольно безопасно :)

benhowdle89
источник
1
Могу поспорить, что они на самом деле не в Банке Англии. Там нет места, там полно банкиров.
Том О'Коннор
5
Trend Micro, чье второе имя является вирусом ...
Том О'Коннор,
Я согласен с вами по поводу Trend Micro, но они принадлежат только вам, вы работаете с программным обеспечением
Humyo