Лучшие практики или ресурсы для разработки плана аварийного восстановления? [закрыто]

29

Мне было поручено возглавить проект по обновлению старого и несколько одностороннего плана аварийного восстановления. На данный момент мы просто пытаемся разобраться в ИТ-аспектах DR. В последний раз, когда они это сделали, они установили масштаб, создав одну катастрофу (центр данных затоплен) и спланировав ее, исключая все другие типы катастроф. Я хотел бы использовать более округлый подход. Я знаю, что это решенная проблема, другие организации написали планы DR.

Наш план состоит в том, чтобы взять наш план ИТ-DR и продолжить его и сказать: «Эй, это то, что мы хотим в плане DR для ИТ, совпадает ли это с тем, что делает остальная часть университета? хотели бы поменять? У нас есть довольно хорошая идея, какова остальная часть плана, и мы ожидаем, что это пройдет хорошо.

То, что я ищу, - это руководство о том, как составить план аварийного восстановления и о каких вопросах я должен думать. Есть ли у вас любимые ресурсы, книги, тренинги, связанные с разработкой плана аварийного восстановления?

Лаура Томас
источник

Ответы:

12

Отличным источником информации является журнал аварийного восстановления ( о ).

К доступным ресурсам сообщества относится текущий проект документа « Общепринятые практики» (GAP) , в котором содержится отличная схема процесса и результатов, которые составляют надежный план и процесс обеспечения непрерывности бизнеса. Также доступно несколько технических документов, посвященных различным темам DR / BC.

Процесс кажется пугающим, но если подходить систематически с четким описанием того, где вы хотели бы оказаться (например, документ DRJ GAP), вы можете быть уверены, что оптимизируете затраченное время и максимизируете ценность конечного продукта.

Я нахожу их ежеквартальные публикации интересными и информативными ( подписка ).

jnaab
источник
1
Превосходно. Это именно те ресурсы, которые я ищу.
Лора Томас
12

Убедитесь, что у вас есть список экстренных контактов. иначе список отзыва

Оно должно выглядеть как дерево и показывать, кто с кем связывается. В конце ветки последний человек должен позвонить первому и сообщить о любом, с кем нельзя связаться.

(Это может быть скоординировано через HR, и использовано для любого типа бедствия)

Джозеф Керн
источник
1
Мы думали, по крайней мере, о списке всех преподавателей, сотрудников и студентов, размещаемых вне офиса ежедневно. Наличие древовидной структуры для преподавателей и сотрудников - отличная идея.
Лора Томас
8

Если мы добавим наши идеи, мы сможем создать хорошую вики из этого поста, как только все добавят свои идеи. Я понимаю, что есть много, чтобы следовать, но у некоторых из нас есть определенные приоритеты, когда дело доходит до восстановления. Для начала вот мой:

Убедитесь, что у вас есть автономная / удаленная документация вашей сети

l0c0b0x
источник
1
Добавляю свой ...
Джозеф Керн
1
Хорошая идея в вики для этого.
Даг Люксем
8

С DR основные вещи - это ваши RTO (целевые показатели времени восстановления) и RPO (целевые точки восстановления), которые примерно переводятся как «сколько времени приемлемо тратить, чтобы вернуть его, и сколько данных мы можем позволить себе потерять». В идеальном мире ответом будет «никто и ничего», но сценарий DR - исключительное обстоятельство. Этим действительно должны руководствоваться ваши клиенты, но, поскольку вы начинаете с позиции ИТ-специалистов, вы можете делать наилучшие предположения, но будьте готовы скорректировать их по мере необходимости. Хорошая цель - приблизиться к «нет и нет», насколько вы можете разумно получить, но вы должны быть в состоянии распознать, когда наступает точка убывающей отдачи.

Эти два фактора могут быть разными в разное время года и разными в разных системах.

Мне нравится более всесторонний подход; заманчиво перечислить события, которые могут привести к сценарию аварийного восстановления, но на самом деле они больше относятся к анализу риска / снижению риска. С DR инцидент уже произошел, и особенности того, чем он был, менее значимы (за исключением, возможно, с точки зрения влияния на доступность средств DR). Если вы потеряете сервер, вам нужно будет вернуть его обратно, независимо от того, был ли он поражен молнией, случайно отформатирован или что-то еще. Подход, сфокусированный на масштабе и распространении катастрофы, с большей вероятностью даст результаты.

Один из подходов к работе с клиентами, если вы обнаружите, что они не хотят участвовать, - это задать им вопросы DR с точки зрения не-ИТ. Вопрос о том, каковы их планы, если все их бумажные файлы сгорят в огне, является примером здесь. Это может помочь вовлечь их в более широкую область DR, и может добавить полезную информацию в ваши собственные планы.

Наконец, регулярное тестирование вашего плана имеет решающее значение для успеха. Нехорошо иметь красивый план аварийного восстановления, который отлично выглядит на бумаге, но не соответствует его целям.

Максимус Минимус
источник
4

На самом деле, модель развития «единичного инцидента» - хорошая идея, как первый шаг. Одна из причин заключается в том, что это делает планирование более реалистичным и целенаправленным. Планируйте потоп, все пути. Затем предположим, что произошел другой инцидент (скажем, длительное отключение электроэнергии), примените этот план к нему и исправьте неисправности. После нескольких итераций план должен быть относительно устойчивым.

Одни мысли ... - обязательно учтите недоступных людей. Если есть наводнение, вы не можете предполагать, что весь соответствующий персонал доступен. Кто-то может быть в отпуске, или ранен, или имеет дело со своей семьей.
- планировать проблемы и недостатки общения. Есть несколько номеров и несколько режимов.
- план DR нуждается в цепи командования. Знание того, кто принимает решения, имеет решающее значение.
- план должен быть широко распространен, в том числе вне офиса и вне сети. Он должен быть доступен во время катастрофы!

tomjedrz
источник
4

Там, где я работаю, я принимал участие в проведении масштабного теста DR на каждом из последних двух лет. Мы обнаружили, что тестирование наших сервисов, людей и процессов в «реалистичных» ситуациях было полезным. Некоторые извлеченные уроки (возможно, очевидные), в надежде, что вы найдете их полезными:

  • Непроверенные службы, несмотря на то, что они написали в своей документации по DR, обычно имеют неявные, вызывающие катастрофы зависимости. Встряхнуть их с помощью реалистичного теста или двух - это полезный и измеримый результат процесса подготовки DR.
  • Непроверенные люди склонны думать, что с их системами все в порядке, и они будут «знать, что делать» в чрезвычайной ситуации. Встряхивания их до реалистичного теста или два велико.
  • Непроверенные процессы быстро распадаются в реальных аварийных ситуациях. В частности, сложные процессы эскалации были направлены в основном на информирование руководителей высшего звена захватывающими способами. Легкие процессы, ориентированные на потребности оперативного персонала и других служб реагирования, центральные источники информации о разворачивающейся аварийной ситуации, явной передаче ответственности и «повседневных» процедурах аварийного реагирования работают лучше всего.

Полагаю, я понимаю, что вы должны стараться не делать теоретически все, что связано с процессом планирования аварийного восстановления. Стремитесь к разрешению, чтобы фактически сломать вещи и таким образом получить точные данные о готовности вашей организации. Конечно, это потребует серьезной поддержки со стороны руководства, но может оказаться, что бизнес может потратить пару дней, на самом деле репетируя худшее.

Киан


источник
3

Существует несколько стандартов из Британского института стандартов (BSi), которые сосредоточены на управлении непрерывностью и аварийном восстановлении.

  • BS 25999-1: 2006 Управление непрерывностью бизнеса, часть 1: Свод практических правил
  • BS 25999-2: 2007 Управление непрерывностью бизнеса. Спецификация
  • BS 25777: 2008 Управление непрерывностью информационных и коммуникационных технологий. Процессуальный кодекс
chmeee
источник
Ох ... очень мило. Теперь спроси моего босса, могу ли я потратить немного денег.
Лора Томас
3

Это может показаться очевидным, но, следуя вышеприведенной документации, убедитесь, что у вас есть резервные копии (желательно вне региона). Это может быть онлайн-хранилище или место, куда можно записать ленты.

Я говорю предпочтительно из этого региона, потому что я родом из района, где у нас не так много стихийных бедствий ежегодно, но, если / когда у нас они есть, это в региональном масштабе с массовым разрушением (землетрясения, вулканы). Хорошо, чтобы ваша резервная копия находилась в банковском сейфе в банке, пока ваш банк не окажется под жидкой горячей магмой (/ Dr. Evil Voice).

Кое-что из того, о чем я читал, - это то, что агентства распределяют расходы на поддержание популярного сайта, когда большой. Они вводят планы восстановления миссии обеих компаний, критически важных для горячей площадки, с использованием виртуализации и тому подобного, а затем распределяют штат сотрудников на уровне «убедитесь, что все огни мигают». Просто мысль.

RascalKing
источник
1
Отличная мысль. У нас есть резервные копии аварийного восстановления с обслуживанием, но они все еще находятся в той же зоне метро.
Лора Томас
1

Также читайте "Непрерывность бизнеса"

Freiheit
источник