Оценка повреждения оборудования после удара молнии. Должен ли я планировать больше?

56

Один из сайтов моего клиента получил прямой удар молнии на прошлой неделе (по совпадению в пятницу 13-го! ).

Я был удален от сайта, но работая с кем-то на месте, я обнаружил странную картину повреждений. Обе интернет-ссылки были недоступны, большинство серверов были недоступны. Большая часть повреждений произошла в MDF , но один IDF, подключенный по оптоволокну, также потерял 90% портов на элементе стека коммутатора. Было достаточно запасных портов коммутатора для перераспределения кабелей в другом месте и перепрограммирования, но было время простоя, когда мы преследовали уязвимые устройства.

Это было новое здание / складское помещение, и большое внимание было уделено планированию серверной комнаты. Главная серверная комната работает от ИБП APC SmartUPS RT 8000VA с двойным преобразованием, работающего от генератора. Произошло правильное распределение энергии на все подключенное оборудование. Выездная репликация данных и резервное копирование системы были на месте.

В целом, ущерб (который я знаю) был:

  • Неисправная 48-портовая линейная карта на коммутаторе шасси Cisco 4507R-E .
  • Сбой коммутатора Cisco 2960 в стеке из 4 участников. (ой ... свободный кабель)
  • Несколько нестабильных портов на коммутаторе Cisco 2960.
  • Материнская плата и блок питания HP ProLiant DL360 G7.
  • Elfiq WAN Link Balr .
  • Один Multitech факс модем.
  • WiMax / Фиксированная беспроводная интернет-антенна и инжектор питания.
  • Многочисленные PoE-устройства (VoIP-телефоны, точки доступа Cisco Aironet, IP-камеры безопасности)

Большинство проблем были связаны с потерей целого блейд-коммутатора в Cisco 4507R-E. Это содержало некоторую сеть VMware NFS и канал связи с брандмауэром сайта. Сбой хоста VMWare, но HA позаботился о восстановлении сетевого подключения виртуальной машины. Я был вынужден перезагрузить / выключить и выключить несколько устройств, чтобы очистить фанки. Так что времени на восстановление было мало, но мне любопытно, какие уроки следует извлечь ...

  • Какие дополнительные меры защиты должны быть реализованы для защиты оборудования в будущем?
  • Как мне подойти к гарантии и замене? Cisco и HP заменяют товары по контракту. У дорогого балансировщика ссылок Elfiq WAN на их веб-сайте есть реклама, которая в основном говорит: «Плохо, используйте сетевой сетевой фильтр ». (кажется, что они ожидают этот тип отказа)
  • Я был в IT достаточно долго, чтобы столкнуться с повреждением молнии в прошлом, но с очень ограниченным воздействием; например, сетевой интерфейс дешевого ПК или уничтожение мини-коммутаторов.
  • Есть ли что-нибудь еще, что я могу сделать, чтобы обнаружить потенциально нестабильное оборудование, или мне просто нужно ждать появления странного поведения?
  • Было ли это просто невезением или что-то, что должно быть действительно учтено при восстановлении после аварии?

Имея достаточно $$$, можно встроить всевозможные избыточности в среду, но каков разумный баланс профилактического / продуманного дизайна и эффективного использования ресурсов здесь?

ewwhite
источник
3
Некоторые хорошие технические ответы ниже, но по моему опыту, ничто не сравнится с хорошим страховым полисом. Буквально страховой полис. Конечно, это не помогает избежать проблемы, и это не мешает клиентам кричать на вас, но это помогает заменить неисправное оборудование, к которому поставщик не будет прикасаться.
Марк Хендерсон
@MarkHenderson Страхование наступает ... но прошло уже 6 недель, и сейчас возникают некоторые мелкие проблемы .
2012 года

Ответы:

23

Пару рабочих мест назад один из центров обработки данных, в котором я работал, находился на один этаж ниже очень большой антенны. Этот большой, тонкий металлический предмет был самым высоким в этом районе, и его ударяли молнией каждые 18 месяцев или около того. Сам центр обработки данных был построен примерно в 1980 году, поэтому я бы не назвал его самой современной вещью в мире, но у них был большой опыт борьбы с повреждением молнии (платы последовательной связи приходилось заменять каждый раз , что является пробой, если связь доски находятся в системе, в которой не было новых деталей, изготовленных за 10 лет).

Одна вещь, которая была поднята старыми руками, состоит в том, что весь этот паразитный поток может найти путь вокруг чего-либо и может распространяться в общем пространстве, как только он наводит мост. И может соединяться через воздушные промежутки. Молния - исключительный случай, когда нормальные стандарты безопасности не достаточно хороши, чтобы предотвратить дуги, и пойдут настолько далеко, насколько у них будет энергия. И это имеет много. Если энергии достаточно, она может дуть от решетки подвесного потолка (возможно, один из подвесных проводов подвешен к петле с соединением с балкой здания в цементе) до верхней части двухстоечной стойки и оттуда в сетевые вкусности.

Как и хакеры, вы можете сделать очень много. Все ваши источники питания имеют выключатели, которые зажимают паразитные напряжения, но ваше низковольтное сетевое устройство почти никогда не делает это и представляет собой общий путь для перенаправления чрезвычайно энергичного тока.


Обнаружение потенциально нестабильного комплекта - это то, что я знаю, как делать в теории, но не в реальности. Вероятно, вам лучше всего поместить подозрительное оборудование в зону и сознательно довести температуру в комнате до верхнего предела рабочего диапазона и посмотреть, что произойдет. Запустите несколько тестов, загрузите его. Оставь там на пару дней. Дополнительное тепловое напряжение по сравнению с любым существующим электрическим повреждением может отсеять некоторые бомбы замедленного действия.

Это определенно сократило срок службы некоторых ваших устройств, но выяснить, какие из них сложно. Схема кондиционирования внутри блоков питания может иметь скомпрометированные компоненты и передавать грязное питание на сервер, что можно обнаружить только с помощью специализированных устройств, предназначенных для проверки блоков питания.


Удары молнии - это не то, что я рассматривал для ДР, за исключением наличия постоянного тока на объекте с гигантским громоотводом на крыше . В общем, забастовка - это одна из тех вещей, которая случается так редко, что она перетасовывается под «стихийное бедствие» и движется вперед.

Но ... у тебя был один сейчас. Это показывает, что в вашем учреждении хотя бы раз были правильные условия. Пришло время получить оценку того, насколько склонны к вашему учреждению даны правильные условия и планировать соответственно. Если вы сейчас думаете только о воздействии молнии на DR, я думаю, это уместно.

sysadmin1138
источник
Я пошел вчера на место, чтобы оценить. Беспорядочный. Я отремонтировал переключатель шасси и проверил повреждение некоторых серверов. Есть ли вероятность, что антенна WiMax / Fixed-Wireless на крыше была точкой входа? Все на его пути пострадали:Antenna->PoE injector->WAN link balancer->Firewall->Dead Cisco 4507 linecard
2012 г.
1
Это звучит ... довольно вероятно.
Мфинни
1
@ewwhite Это звучит очень вероятно. Ущерб, когда тот старый DC получил удар, был очень похож.
sysadmin1138
Я хотел бы добавить мудрости к сообщению sysadmin1138 (извините, я пока не могу комментировать, не хотел, чтобы это было ответом) ... Заземляющие контакты на шнурах питания предназначены для ЧЕЛОВЕЧЕСКОЙ безопасности, а не для ваших устройств .. В небольших офисах; Я держу важные машины с земли (деревянный ящик, резиновый коврик) и незаземленные разъемы / адаптеры UPS-> Wall. Я уверен, что OSHA ненавидит это, но компьютеры любят это. Это также помогает, когда опоясывающий и перезаряжаемый опоясывает, поскольку эти волны могут убить что угодно. Я был в здании, когда дул очень-очень большой ИБП / Инвертор Libert, и мне пришлось объяснять их технологии, как
возникают
8

Я думал об этом вопросе с тех пор, как он недавно был отредактирован в верхней части первой страницы.

Я свободно утверждаю, что для таких людей, как sysadmin1138, которым приходится иметь дело с инсталляциями, которые очень привлекательны для больших ударов молнии на крыше постоянного тока, особое планирование на случай чрезвычайной ситуации для большого удара имеет смысл. Но для большинства из нас это одноразовое обстоятельство, и я подумал, что ответ, более подходящий для всех нас, может иметь определенную ценность.

Можно представить всевозможные угрозы сюжета фильма ; Сценарии, которые могут определенно произойти, несомненно, приведут к потере ваших бизнес-операций, если они это сделают, но нет никаких оснований полагать, что вероятность их появления повышена. Вы знаете такие вещи; Удар самолета / молния / Нефтяное депо поблизости взрывается / любой другой сценарий вероятного, но фонового риска.

У каждого из них есть конкретный план смягчения, который можно было бы реализовать, но я хотел бы предположить, что - по модулю моего условия выше - нет никакого делового смысла делать это . Поскольку Шнайер пытается указать на вышеупомянутую конкуренцию, то, что вы можете вообразить, что происходит что-то ужасное, не делает его угрозой, против которой конкретное планирование стоит или даже желательно. То, что имеет смысл в бизнесе, - это хорошо документированный и проверенный план обеспечения непрерывности бизнеса общего назначения.

Вы должны спросить себя, каковы коммерческие затраты, связанные с полной потерей сайта за различные периоды времени (например, 24 часа, 96 часов, одна неделя, один месяц), и попытаться количественно оценить вероятность каждого события. Это должен быть честный анализ стоимости бизнеса, учитываемый всеми уровнями бизнеса. Я работал на сайте, где общепринятым показателем простоя было £ 5,5 млн / час (а это было 20 лет назад, когда пять миллионов фунтов стерлингов были большими деньгами); Принятие этой цифры в целом привело к тому, что многие решения стали намного проще, потому что они стали просто математикой.

Ваш бюджет - это прогнозируемая потеря, умноженная на годовой шанс этой потери; Теперь посмотрим, что вы можете сделать, чтобы уменьшить эту угрозу для бюджета.

В некоторых случаях он будет работать в полностью резервном дата-центре с холодным оборудованием, готовым к работе 24x7. Это может означать небольшой резервный центр обработки данных, так что взаимодействие с клиентами может продолжаться с очень небольшим количеством телефонных операторов и веб-сайта-заполнителя, предупреждающего о сбое. Это может означать второе, избыточно маршрутизируемое интернет-соединение на вашем главном сайте, лежащее в холодном состоянии до тех пор, пока это не потребуется. Это может означать, как отмечает Марк Хендерсон выше, страхование (но страхование, которое покрывает убытки бизнеса, а также фактические затраты на восстановление); если вы можете потратить свой бюджет БК на один лист бумаги, который покроет все ваши ожидаемые расходы в случае бедствия, возможно, имеет смысл купить этот лист бумаги - но не забывайте учитывать провал андеррайтерав ваш план бизнес-рисков. Это может означать модернизацию контрактов на обслуживание определенного основного оборудования до чрезвычайно дорогих четырехчасовых ремонтов. Только вы можете знать, что имеет смысл для вашего бизнеса.

И когда у вас есть этот план, вам действительно нужно его протестировать (за исключением, возможно, страховых). Я работал на площадке, где у нас был полный холодный участок для небольших операций, готовый к работе в 45 минутах езды от нашего основного предприятия. Когда у нас возникла проблема с отключением базовой сети, мы попытались исправить ее в реальном времени вместо того, чтобы перейти на холодную площадку, а затемисправление сердечника и сокращение. Одна из причин неудачного отключения была в том, что у нас не было реального представления о том, сколько времени потребуется, чтобы сократить и сократить. Таким образом, никто не знал, как долго должно быть разрешено работать без перестановок, прежде чем принимать решение о сокращении, поэтому - вполне понятно - была нерешительность принять решение о сокращении. Головы закатились после того, как мы вернулись в онлайн, 14 часов спустя; не из-за простоя как такового , а потому, что много денег было потрачено на установку, чтобы смягчить отключение на один день, которое оставалось неиспользованным во время именно такого простоя.

В заключение отметим, что сторонние компоненты вашего бизнес-плана не гарантированно работают. Ваше старшее руководство может сидеть там и думать, что « если мы поместим серверы в облако, они всегда будут там, и мы сможем уволить системных администраторов ». Не так. Облака могут потерпеть неудачу, как и все остальное; если вы передали критически важные компоненты поставщику, все, что вам нужно сделать, - это лишить вас возможности оценить вероятность отказа этих компонентов. Соглашения об уровне обслуживания все очень хороши, но если они не подкреплены существенными штрафами за неисполнение, они бессмысленны - зачем вашему провайдеру тратить дополнительные деньги на то, чтобы оставаться доступным, если они могли бы просто потратить деньги и возместить ваши расходы на обслуживание в течение периода недоступность? Чтобы быть надежными, ваши соглашения об уровне обслуживания должны предусматривать штрафы, которые приблизительно соответствуют затратам, связанным с отключением. Да, это значительно увеличит затраты на аутсорсинг; и да, это вполне ожидаемо.

Безумный Шляпник
источник
2
Я должен добавить ... этот сайт был поражен молнией три раза с момента первоначальной публикации. Причина была связана с недостаточным / отсутствующим электрическим заземлением в нескольких районах объекта. Мы подали в суд на подрядчиков, и страховка позаботилась о большей части замен.
Ewwhite
2
Извините, но мое вступительное положение должно было бы быть более понятным и для вас; на сайтах, где любой риск выше фонового, для меня имеет смысл, по крайней мере, рассмотреть меры по смягчению, специально направленные на этот риск . Мой ответ был больше для всех остальных, которые могли бы прочитать ваш вопрос и начать думать: « Ну, у меня тоже нет плана молнии; возможно, я должен ».
MadHatter
6

Это всегда сводится к тому, сколько вы хотите потратить. У меня нет достаточно глубоких знаний, чтобы подробно об этом говорить, но я был в большом фармацевтическом центре обработки данных, который принял удар молнии и пробил нечто, что должно было быть многократно избыточным спайком (и был разработан правильно , но был реализован неправильно, поэтому что-то получилось.)

Какой максимальный всплеск мог предотвратить ваш ИБП? У него должен быть рейтинг. По-видимому, удар был достаточно прямым, чтобы превзойти его, или что-то просочилось вокруг подачи ИБП, как плохая земля. Поэтому, возможно, вы пересмотрите свой проект питания, определите, насколько вероятен другой удар, сравните стоимость вероятности простоя X с вероятностью восстановления и, возможно, попросите электрика провести обследование объекта, чтобы убедиться, что все заземлено правильно, - и некоторые быстрые чтения показывают что заземление для безопасности / кода не так интенсивно, как заземление для предотвращения повреждения от молнии.

mfinni
источник
ИБП, кажется, в порядке. Были проблемы в нескольких частях здания, но основные технические характеристики ИБП
гласят
Окей, звучит хорошо. Тогда это, вероятно, пробралось через другие средства, если Ваш сетевой питатель тверд.
mfinni