Что-то горит в серверной комнате; как я могу быстро определить, что это такое?

454

На днях мы замечаем ужасный жгучий запах, выходящий из серверной комнаты. Короче говоря, он оказался одним из аккумуляторных модулей, которые горели в ИБП, но потребовалось несколько часов, прежде чем мы смогли это выяснить. Основная причина, по которой нам удалось это выяснить, заключается в том, что дисплей ИБП наконец-то показал, что модуль необходимо заменить.

Здесь была проблема: вся комната была наполнена запахом. Тест на нюх был очень трудным, потому что запах проникал во все (не говоря уже о том, что он сделал нас легкомысленными). Мы почти по ошибке сняли наш производственный сервер базы данных, потому что там был самый сильный запах. Жизненно важные показатели были в порядке (температура процессора показала 60 градусов Цельсия, а скорость вращения вентилятора в порядке), но мы не были уверены. Так уж вышло, что сгоревший модуль батареи был примерно такой же высоты, как сервер в стойке, и всего в 3 футах от него. Если бы это была настоящая чрезвычайная ситуация, мы бы с треском провалились.

В действительности шансы на то, что фактическое серверное оборудование перегорает, встречаются довольно редко, и большую часть времени мы будем рассматривать виновника ИБП. Но с несколькими стойками с несколькими единицами оборудования, это может быстро стать игрой в догадки. Как быстро и точно определить, какое оборудование на самом деле горит? Я понимаю, что этот вопрос сильно зависит от переменных среды, таких как размер помещения, вентиляция, местоположение и т. Д., Но любой вклад будет приветствоваться.

Чад Харрисон
источник
34
@DeerHunter Что ж, спасибо, боже, это был конец дня, и на стройке было очень мало людей. Спасибо за вашу конструктивную критику, и я обязательно сообщу своему руководителю, чем она рискует, решив поддерживать систему в рабочем состоянии.
Чад Харрисон
12
@hydroparadise - кто-то должен набраться смелости, чтобы сказать: « ОСТАНОВИТЬ Мы не делаем это правильно». Если ваш супервайзер не понимает правил безопасности, на самом деле мало что можно сделать, кроме как отрастить позвоночник и не склониться к желанию срезать углы.
Охотник на оленей
112
@DeerHunter: Каков будет правильный ответ, когда вы почувствуете запах чего-то горящего? Там нет видимого дыма, только обожженный запах. Вы выключаете весь центр обработки данных, проветриваете его на несколько часов, затем включаете серверы один за другим, пока запах не вернется? В небольшом 25-стойечном центре обработки данных может быть проверено 1000 серверов, что приводит к большому времени простоя из-за «запаха» - ОП не сообщал о видимом дыме или пожаре.
Джонни
24
@Johnny - Цитируя ОП: «вся комната была заполнена запахом. Провести анализ нюха было очень сложно, потому что запах пропитал все (не говоря уже о том, что он заставил нас вздрогнуть)« Ответ на ваш вопрос - да, вы должны вентилируйте комнату и устраняйте проблемы систематически . Все остальное безответственно.
Охотник на оленей
14
Итак, те, кто критически относится к обработке запаха ОП, предполагают, что нет никакой разницы в срочности между запахом и огнем / дымом? Если вы чувствуете, что что-то горит в вашем доме, но не видите дыма и не слышите тревоги, вы выбрасываете себя и свою семью из дома и звоните 911?
trpt4him

Ответы:

383

Общее мнение, как представляется, заключается в том, что ответ на ваш вопрос состоит из двух частей:

Как мы можем найти источник смешного горящего запаха?

У вас есть «Как», довольно хорошо прибитый:

  • «Тест на нюх»
  • Ищите видимый дым / дымку
  • Пройдите по комнате с тепловой (ИК) камерой, чтобы найти горячие точки
  • Проверьте панели мониторинга и устройства на наличие предупреждений

Вы можете повысить свои шансы на быстрое обнаружение проблемы несколькими способами - улучшение мониторинга часто является самым простым. Некоторые вопросы, чтобы задать:

  • Получаете ли вы температуру и другие предупреждения о вреде для здоровья от вашего оборудования?
  • Ваши системы ИБП сообщают о сбоях в вашу систему мониторинга?
  • Получаете ли вы сигналы тревоги по току от вашего распределительного оборудования?
  • Отвечают ли детекторы комнатного дыма системе мониторинга? (а они могут? )

Когда мы должны устранять неполадки, а не нажимать на большой красный выключатель?

Это более интересный вопрос.
Нажав на большой красный выключатель, вы можете потратить на спешку огромные деньги вашей компании: чистые выпуски агента могут составлять десятки тысяч долларов, а затраты на отключение / восстановление после аварийного отключения питания (EPO, «бросая комнату») ) может быть разрушительным.
Вы не хотите бросать центр обработки данных, потому что конденсатор в источнике питания лопнул и заставил комнату пахнуть.

И наоборот, пожар в серверной комнате может стоить вашей компании данных / оборудования и, что более важно, жизни ваших сотрудников.
Устранение неполадок, связанных с «странным жгучим запахом», никогда не должно иметь приоритет над безопасностью , поэтому важно иметь некоторые четкие правила для устранения неполадок в условиях «предпускового подогрева».

Следующие рекомендации являются моими личными ограничениями, которые я применяю в отсутствие (или в дополнение к) любых других четко определенных процедур / правил - они хорошо мне помогли и могут помочь вам, но они могут так же легко убить меня или уволен завтра, так что применяйте их на свой страх и риск.

  1. Если вы видите дым или огонь, бросьте комнату.
    Это должно быть само собой разумеющимся, но давайте все равно скажем: если есть активный огонь (или дым, указывающий на то, что это скоро произойдет), вы покидаете комнату, отключаете питание и разряжаете огонь. система подавления.
    Исключения могут существовать (проявлять здравый смысл), но это почти всегда правильное действие.

  2. Если вы продолжаете устранять неполадки, всегда привлекайте хотя бы еще одного человека.
    Это по двум причинам. Во-первых, вы не хотите бродить в центре обработки данных, и вдруг у вас поднимется стойка в ряду, по которому вы идете, и никто не знает, что вы там. Во-вторых, другой человек - это ваша проверка в здравом уме при устранении неполадок, а не увольнение из комнаты, и если вы позвоните в «Большой красный выключатель», у вас будет преимущество, если второй человек согласится с решением (помогает избежать аспектов, ограничивающих карьеру) о таком решении, если кто-то подвергает сомнению это позже).

  3. При устранении неполадок соблюдайте меры предосторожности.
    Убедитесь, что у вас всегда есть запасной выход (открытый конец ряда и свободный путь к выходу).
    Держите кого-то, размещенного в EPO / выпуске подавления огня.
    Возьмите с собой огнетушитель (галон или другое чистящее средство, пожалуйста).
    Помните правило № 1 выше.
    Если сомневаетесь, покиньте комнату . Позаботьтесь о своем дыхании: используйте респиратор или кислородную маску. Это может спасти ваше здоровье в случае химического пожара.

  4. Установите предел и придерживайтесь его.
    Точнее, установите два ограничения:

    • Условие («Насколько хуже я позволю этому получить?»), И
    • Время («Как долго я буду пытаться найти проблему, пока она не стала слишком рискованной?»).

    Установленные вами лимиты также можно использовать, чтобы позволить вашей команде начать упорядоченное отключение затронутой области, поэтому, когда вы ДЕЛАЕТЕ питание, вы не разбиваете кучу активных машин, и ваше время восстановления будет намного короче, но помните, что если корректное отключение занимает слишком много времени, возможно, вам придется разрешить сбой нескольким системам во имя безопасности.

  5. Доверяйте своей интуиции
    Если вы в любое время беспокоитесь о безопасности, отключите поиск неисправностей и очистите комнату.
    Вы можете или не можете бросить комнату, основываясь на чувстве кишки, но разумно перегруппироваться за пределами комнаты в (относительной) безопасности.

Если нет непосредственной опасности, вы можете взять с собой в местное отделение пожарной охраны, прежде чем предпринимать какие-либо радикальные действия, такие как выброс EPO или чистящего средства. (Они могут попросить вас сделать это в любом случае: их задача - защищать людей, а затем имущество, но они, очевидно, являются экспертами в борьбе с пожарами, поэтому вы должны делать то, что они говорят!)

Мы обсуждали это в комментариях, но это также может быть обобщено в ответе - @DeerHunter, @Chris, @Sirex и многие другие участвовали в обсуждении.

voretaq7
источник
30
Университет я пошел, чтобы установить новый центр обработки данных. Они внедрили очень сложную систему EPO / пожаротушения. Оборудование, которое оно защищало, исчислялось миллионами долларов, а также использовалось для миллионов долларов исследований медицинской части школы. Очевидно, что если бы это было необходимо, то была бы нажата красная кнопка, но, как говорится, если бы была нажата красная кнопка , просто сброс ее был близок к 200 000 долларов США. Доллары налогоплательщиков вы можете быть уверены, что если бы стрелка была нажата, когда она не нужна, у парня, который ударил ее, больше не было бы работы.
Райан
28
+1 за систему друзей. Я думаю, что немного странно, что есть DC, которые используют EPO, чтобы также подавить подавление огня. Есть много ситуаций, когда вы хотели бы вступить в EPO, не выбрасывая галотрон по всему мужчине, пораженному электрическим током. EPO - это серьезная сделка, но она не «уничтожает все в своем роде» или, по крайней мере, не должна быть. Надеемся, что ребята в округе Колумбия должны хорошо понимать большую красную кнопку и систему пожаротушения, чтобы взвесить эффект удара по кнопке. Например, EPO может фактически остановить пожар и сохранить DC.
Крис
13
Важное замечание, которое я не упомянул, состоит в том, что в большинстве случаев, когда что-то выходит из строя, чтобы испустить запах горения, все, что горит, гасит само, прежде чем обнаружится запах, и ничего не сгорит вне неисправного оборудования. Иногда часть оборудования тлеет до тех пор, пока у него есть мощность, но если кто-то видит дым, то можно определить оборудование, отключить питание только для него и посмотреть, скоро ли дым рассеивается или постоянно ухудшается.
суперкат
1
@ryan: Если нажатие на большую красную кнопку стоит так много долларов налогоплательщика, мы надеемся, что ответственное лицо разработало план по устранению мелких инцидентов с местным отделом пожарной охраны, в котором нет опасности для сотрудников.
Кристоф
3
@ryan Это напоминает мне о телевизионном репортаже о ЦЕРНе, который я недавно видел: съемочная группа и репортер были действительно довольны работой системы, и в один момент один из них чуть не протаранил красную кнопку аварийного выключения своим рюкзаком - близкий к сердечному приступу парень из персонала, который думает о стоимости перезагрузки ...
Хаген фон Айцен
183

Тепловизионная камера может сделать работу, и позволит вам определить, где перегрев. Подобное устройство позволит вам также определить причину возникновения пожара или возгорания в комнате, заполненной дымом.

ddalcero
источник
30
В настоящее время тепловизионные камеры стоят дорого, и если у вас большая серверная комната, то это инструмент, который стоит приобрести.
rackandboneman
16
TIC не так уж дорог и очень полезен в центре обработки данных или большой серверной комнате. Не только в случае таких проблем, как перегретые кабели или оборудование, но также в качестве профилактического или раннего обнаружения проблемы, оптимизации охлаждения, потока воздуха и т. Д.
ddalcero
39
Лазерный температурный пистолет, как этот , является дешевой альтернативой
MichaelHouse
4
@mfinni Электрики также часто имеют тепловые камеры. (Тепловизионная проверка наших распределительных щитов питания каждый год или после каких-либо крупных электромонтажных работ была стандартной, когда я работал в хостинговой компании).
voretaq7
3
Тепловая камера имеет очень большие ограничения: 1. Поле обзора может препятствовать использованию 2. Ваше окружение может быть очень плотным. [Будут обнаружены большие пожары, но не мелкие] 3. Для определения порога
потребуется
138

Вы не делаете ничего из того, что было сказано. Вы покидаете опасную среду, потому что то, что прокачивается через всю комнату, опасно для вашего здоровья и может действительно испортить ваши легкие. Если в комнате есть резкий запах чего-то горящего, которого вы не можете найти, позвоните по номеру (911 | 112 | 999 | по любому номеру службы экстренной помощи, который соответствует вашей юрисдикции), и пусть пожар (компания | отдел | бригада) разберется, пока они Находится на баллоне с воздухом

Компьютерные комплектующие содержат всевозможные интересные химические вещества, в том числе ртуть , кадмий , свинец и много пластмасс в оболочках. Обратите внимание, что все ссылки, которые я сделал, объясняют, как воздействие низкого уровня может вызвать длительный ущерб или даже быструю смерть. Это среда, которая может быть сразу опасна для жизни и здоровья .

... так что на самом деле, если что-то горит, не тратьте часы вдыхая запахи. Если вы не можете идентифицировать это и немедленно действовать, чтобы сдержать это, уходите.

Джефф Ферланд
источник
18
Следует добавить, что если бы это произошло в «реальном» центре обработки данных с датчиками дыма, интегрированными с системой кондиционирования воздуха и установленной системой пожаротушения, пожарная сигнализация отключилась бы, и помещение автоматически было бы запечатано и залито аргоном или CO2, поэтому не могло даже быть мысли о том, чтобы бегать и нюхать снаряжение.
the-wabbit
8
@ syneticon-dj Это зависит от типа установленных детекторов. Ионизационные детекторы могли сработать для подавления огня, но я работал (и в настоящее время размещаю оборудование) в местах, где установлены оптические детекторы дыма. Для них требуется видимый дым (или, по крайней мере, хорошая дымка), прежде чем они сработают.
voretaq7
3
Хотелось бы, чтобы я высказался об этом больше. рискуя быть спорным, «получить профессиональный» пожарный - единственный путь вперед.
user619714
19
Да, как бывший пожарный, я бы не остался там без своего снаряжения. Даже когда пожар потушен, нас учат оставаться упакованными из-за ядовитых газов. Если бы я назвал плюсы, ты тоже должен!
Джефф Ферланд
1
@ Майкл, конструкции, которые я видел, не полагались на потолочные детекторы дыма, но имели фотоэлектрические детекторы в обратном потоке воздуха. Единственный раз, когда я видел его срабатывание, было во время процедуры тестирования, когда система аргонита была отсоединена, а источник дыма был помещен в один из шкафов. Это сработало так, как я ожидал. К счастью, мне никогда не приходилось иметь дело с настоящими пожарами.
the wabbit
76

Если у вас был надлежащий контроль на ИБП (обычно через SNMP), сам аппарат должен был позвонить в вашу систему мониторинга. Если это не так, поговорите с вашим поставщиком об этом. Он либо неисправен, либо ваша система мониторинга не настроена должным образом.

Если что-то активное на самом деле горит, оно должно каким-то образом жаловаться на это или просто быть вне сети, что также должно вызывать тревогу.

Если это что-то вроде реальной шины питания, сгорающей через изоляцию, а не на интеллектуальном PDU, тогда мы вернемся к вашему первоначальному вопросу, а именно: «Как мне найти горящую вещь?» И я думаю, что правильный ответ: «Вступи в EPO и выясни это. Твои рабочие серверы, вероятно, недостаточно важны, чтобы рисковать жизнями».

mfinni
источник
13
Что означает EPO?
Midhat
39
Аварийное отключение питания ... большая красная кнопка, которая отключает питание в комнате. Главным образом, когда его в огне.
Грант
11
Выраженный +1, проголосовал бы +1000. Нажмите кнопку, эвакуируйте, подождите, разберитесь с вещами позже. Вести обычные дела с присутствием огня и дыма (и пытаться что-либо устранить) - одна из самых страшных ошибок, которые может сделать инженер.
Охотник на оленей
36
@ Крис Я должен с уважением не согласиться по поводу «EPO, уйти, подождать». Активация EPO и / или освобождение чистого агента для комнаты, полной производственного оборудования, очень часто может быть тем, что мы называем Движением, ограничивающим карьеру . Если нет какого-либо активного, видимого огня или следа дыма, исходящего от какого-либо оборудования, выполнение какого-либо первоначального расследования обычно является правильным. Конечно, вы должны быть абсолютно готовы выскочить из комнаты, нажимая соответствующие красные кнопки в любой момент вашего расследования.
voretaq7
13
Вполне вероятно, что даже совершенная система мониторинга не поймала бы этого до тех пор, пока на панели ИБП не появилось сообщение «Заменить модуль», то есть, разумеется, вы хотите, чтобы ваша система мониторинга обратила на вас такое внимание. В следующий раз модуль может выйти из строя в 19:30 в пятницу, когда никого нет рядом, и оповещение о мониторинге заставит вас вернуться и разобраться с проблемой, прежде чем она превратится в полноценную аварийную ситуацию. Если вы можете подключить мониторинг к вашему FACP, ваши датчики дыма и / или тепла могут даже предупредить вас о том, что изоляция сгорела на силовых шинах и т.п.
voretaq7
43

Это одна из тех ситуаций, когда

XKCD Die Hard сисадмин

не относится, вы должны позвонить профессионалу

Пожарный в защитном снаряжении

Все остальное просто глупо.

Iain
источник
это явно лучший ответ. :)
Гражданин
@Navin Нет вы не ребята в отделе пожарной сделать это.
user619714
40

Как человек, чья прежняя карьера была электронным, у меня есть опыт работы с «жгучими запахами», которые не были пожарами. Это не редкость.

Я бы не закрыл центр обработки данных для запаха. Дым - другое дело, что-то действительно горит (обычно, но танталовый конденсатор размером с горошину может также заполнить комнату дымом). Удивительно, как сильно может пахнуть жареный компонент в блоке питания.

Термометр TIC или ИК (полезный инструмент и намного дешевле, чем TIC) не обязательно показывает это, так как компонент вообще не выделяет много тепла и находится внутри корпуса. Но проверьте, не работают ли устройства, используйте инструменты мониторинга. При таком запахе в 95% случаев это будет источник питания, влияющий на производительность всего устройства.

Малькольм
источник
3
+1, перегоревшие блоки питания распространены. В большинстве центров обработки данных с высокой скоростью воздушного потока дым уносится быстро, и трудно обнаружить источник запаха. Однако в маленькой комнате запах может быть довольно плохим и быстро распространяться по всей комнате.
Стефан Ласевский
19

Мне нравятся ответы по ИК-изображениям или термометрам, но, возможно, также поможет настоящий «детектор запаха». После всего, что вызвало твою осторожность, был запах. Дым, тепло, ИК и т. Д. - все это суррогаты.

Что - то вроде этого: из Синьи . Я лично никогда не использовал их и даже не видел, чтобы они использовались в центре обработки данных. Но по крайней мере теоретически это должен быть аккуратный инструмент. Если у вас есть деньги, чтобы потратить на эту штуковину, то есть.

http://www.sca-shinyei.com/odormeter или http://www.intopsys.com/products/cyranose.html?gclid=CNXXzOrLs7YCFUws6wodViYApQ

Это дает вам силу запаха, а также классификацию. Так что возвращение к запаху должно быть возможным. Дьявол в деталях, конечно. Насколько он чувствителен, маскирует ложный фоновый запах и т. Д.

Одно преимущество по сравнению с измерениями, основанными исключительно на температуре, состоит в том, что часто запах возникает в гораздо более ранней точке или пороге. Или, если перегретый компонент скрыт корпусом / скрытой проводкой и т. Д., Легче обнаружить выходящие молекулы, чем горячую точку прямой видимости.

Другая ситуация - запах, не связанный с жарой. У нас была утечка в контуре охлаждения, и запахи охлаждающей жидкости тоже были своеобразными. Я даже не буду вдаваться в древний случай смерти грызуна в протоках. :)

Я был удивлен, насколько чувствительны эти датчики. По-видимому, H2S / меркаптаны и т. Д. (Обычные преступники) обнаруживаются при уровнях ниже ppm.

введите описание изображения здесь

curious_cat
источник