Вероятность отказа шасси отвала

48

В моей организации мы думаем о покупке блейд-серверов, а не стоечных серверов. Конечно, поставщики технологий также делают их звучание очень приятным. Проблема, которую я очень часто читаю на разных форумах, заключается в том, что существует теоретическая вероятность того, что серверное шасси выйдет из строя, что впоследствии приведет к отключению всех блейдов. Это связано с общей инфраструктурой.

Моя реакция на эту вероятность будет иметь избыточность и два шасси вместо одного (конечно, очень дорого).

Некоторые люди (в том числе, например, HP Vendors) пытаются убедить нас в том, что шасси вряд ли выйдет из строя из-за множества избыточностей (резервный источник питания и т. Д.).

Еще одна проблема, с моей стороны, заключается в том, что если что-то пойдет не так, могут потребоваться запасные части, что сложно в нашем месте (Эфиопия).

Поэтому я бы спросил опытных администраторов, которые управляют блейд-сервером: каков ваш опыт? Они разрушаются в целом - и какова разумная общая инфраструктура, которая может потерпеть неудачу?

Этот вопрос может быть распространен на общее хранилище. Опять же, я бы сказал, что нам нужно два блока хранения вместо одного - и снова производители говорят, что все это настолько надежно, что никаких сбоев не ожидается.

Ну, я не могу поверить, что такая критически важная инфраструктура может быть очень надежной без избыточности, но, может быть, вы скажете мне, есть ли у вас успешные основанные на блейдах проекты, которые работают без избыточности в его основных частях (шасси, хранилище ... )

На данный момент мы смотрим на HP - IBM выглядит слишком дорого.

ChrisZZ
источник
3
Отличный вопрос Я опубликую свой ответ и некоторые сценарии реальных сбоев позже сегодня.
ewwhite
Вы смотрели на то, что Dell имеет в своих серверах C? Например, C6100 имеет 4 узла в корпусе 2U, что эквивалентно шасси с 4 слотами. Вместо одного 10U блейд-шасси вы можете получить пять стоечных серверов 2U. Больше нет единой точки отказа, но вы теряете преимущества объединительной платы. Возможно, HP / IBM имеют эквивалентный продукт.
JQA

Ответы:

49

Существует низкая вероятность полного отказа шасси ...

Скорее всего, вы столкнетесь с проблемами на вашем предприятии, прежде чем выдержать полный отказ корпуса лезвия.

Мой опыт в первую очередь касается корпусов HP C7000 и HP C3000 . Я также управлял блейд-решениями Dell и Supermicro. Продавец имеет значение немного. Но в целом, оборудование HP было звездным, Dell был в порядке, а Supermicro не хватало качества, отказоустойчивости и было просто плохо спроектировано. У меня никогда не было сбоев на стороне HP и Dell. У Supermicro были серьезные перебои в работе, что заставило нас отказаться от платформы. На HP и Dells я никогда не сталкивался с полным отказом шасси.

  • У меня были тепловые события. Неисправность кондиционирования воздуха на объекте совместного размещения отправила температуры до 115 ° F / 46 ° C в течение 10 часов.
  • Скачки напряжения и сбои в линии: потеря одной стороны канала A / B. Индивидуальные сбои питания. Обычно в моих блейд-установках есть шесть блоков питания, поэтому есть много предупреждений и избыточности.
  • Сбои отдельных блейд-серверов. Проблемы одного сервера не влияют на другие в корпусе.
  • Огонь в шасси ...

Я видел множество сред и имел преимущество установки в идеальных условиях центра обработки данных, а также в некоторых более грубых местах. На стороне HP C7000 и C3000 главное, что следует учитывать, это то, что корпус полностью модульный. Компоненты спроектированы так, чтобы свести к минимуму влияние отказа компонента, влияющего на весь блок.

Подумайте об этом так ... Основное шасси C7000 состоит из передней, (пассивной) сборки объединительной платы и объединительной платы. Конструкционный корпус просто удерживает передний и задний компоненты вместе и выдерживает вес системы. Почти каждая часть может быть заменена ... поверьте, я много разобрал. Основные резервы - это вентилятор / охлаждение, питание и управление сетью. Процессоры управления ( встроенный администратор HP ) могут быть спарены для обеспечения избыточности, однако серверы могут работать без них.

введите описание изображения здесь

Полностью заселенный корпус - вид спереди. Шесть блоков питания в нижней части работают на всю глубину корпуса и подключаются к модульной сборке объединительной платы в задней части корпуса. Режимы питания настраиваются: например, 3 + 3 или n + 1. Таким образом, корпус определенно имеет резервирование питания. введите описание изображения здесь

Полностью заселенный корпус - вид сзади. Сетевые модули Virtual Connect на задней панели имеют внутреннее перекрестное соединение, поэтому я могу потерять одну или другую сторону и при этом поддерживать сетевое подключение к серверам. Существует шесть источников питания с возможностью горячей замены и десять вентиляторов с возможностью горячей замены. введите описание изображения здесь

Пустой корпус - вид спереди. Обратите внимание, что в этой части корпуса нет ничего особенного. Все соединения передаются на модульную промежуточную плату. введите описание изображения здесь

Сборка средней плоскости снята. Обратите внимание на шесть блоков питания для сборки промежуточной платы внизу. введите описание изображения здесь

Сборка средней плоскости. Здесь происходит волшебство. Обратите внимание на 16 отдельных подключений на нижнем уровне: по одному для каждого блейд-сервера. У меня были отдельные серверные сокеты / отсеки, которые не разрушали весь корпус и не влияли на другие серверы. введите описание изображения здесь

Объединительная плата (ы) блока питания. Блок 3ø ниже стандартного однофазного модуля. Я изменил распределение питания в своем центре обработки данных и просто поменял объединительную плату блока питания, чтобы справиться с новым методом доставки энергии введите описание изображения здесь

Повреждение разъема шасси. Этот конкретный корпус был уронен во время сборки, оторвав контакты от разъема ленты. Это оставалось незамеченным в течение нескольких дней, в результате чего ходовое лезвие шасси ловило ОГОНЬ ... введите описание изображения здесь

Вот обугленные остатки ленточного кабеля промежуточной платы. Это контролировало некоторые температуры шасси и мониторинг окружающей среды. Блейд-серверы продолжали работать без инцидентов. Пострадавшие части были заменены на досуге во время запланированного простоя, и все было хорошо. введите описание изображения здесь

ewwhite
источник
+1 за C7000. У нас был один, работающий в течение последних двух лет, надежный, и у нас никогда не было проблем с оборудованием или производительностью в корпусе или блейдах.
tombull89
1
Должны согласиться с этим - у нас были различные шасси от Dell, и они были в значительной степени пуленепробиваемыми. Я думаю, что у нас был сбой одного модуля контроллера на одном шасси, и в результате мы не смогли дистанционно управлять самим шасси в течение дня, который потребовался для поддержки Dell, чтобы отправить нам другой контроллер и инженера для его установки. Нет фактического простоя лезвия из-за сбоя или операции по замене контроллера.
Роб Моир
1
Я должен согласиться с @ewwhite. Я работал c7000 около 8 лет без перебоев в работе шасси. Мы даже запустили их в 130 ° F на пару часов из-за сбоя HVAC, и ничего не вышло. Важно помнить, что нагрузка по питанию должна быть распределена между несколькими панелями питания, а сеть - по нескольким коммутаторам, чтобы исключить единую точку отказа. Единственное, что у нас когда-либо было плохо - это жесткие диски с блейд-серверами, но вы можете увидеть это и на традиционных серверах.
mrTomahawk
20

Я управляю небольшим количеством блейд-серверов уже восемь лет, и у меня еще не было системной ошибки, которая вывела несколько блейдов в автономный режим. Я подошел очень близко из-за проблем с питанием, но у меня еще не было отказа в шасси, которое не было связано с внешними источниками.

Ваше наблюдение о том, что шасси представляет собой единую точку отказа, является правильным, хотя в наши дни они создают в них большое количество избыточностей. Все блейд-системы, которые я использовал, имели параллельную подачу питания на блейды и несколько сетевых разъемов, проходящих по разным каналам, а в случае нескольких каналов Fibre Channel от блейда до оптических портов задней части стойки. Даже информационная система шасси имела несколько путей.

При соответствующем сетевом проектировании (использование избыточной сетевой карты, MPIO для хранилища) события с единственной проблемой полностью выживаемы. Во время работы с этими системами у меня были следующие проблемы, ни одна из которых не затрагивала более одного блейда, если таковые имеются:

  • В блейд-стойке выходят из строя два блока питания. В остальных 4 было достаточно избыточности для поддержки нагрузки.
  • Потеря фазы для 3-фазного источника питания. Эти поставки редки в наши дни, но две другие фазы имели достаточную емкость, чтобы выдержать нагрузку.
  • Потеря цикла управления между шасси. Так было в течение многих лет, прежде чем технический специалист вендора заметил это.
  • Потеря всех петель управления между шасси полностью. Мы потеряли доступ к консоли управления, но серверы продолжали работать, как будто ничего не случилось.
  • Кто-то случайно перезагрузил заднюю сетевую объединительную панель. Все в этом шасси использовало избыточные сетевые карты, поэтому обслуживание не прерывалось; весь трафик переместился на другую объединительную плату.

Точка зрения TomTom о стоимости очень верна. Чтобы достичь полного паритета стоимости, ваше блейд-шасси должно быть полностью загружено и, вероятно, не использовать специальные вещи, такие как коммутаторы задней стойки. Стойки Blade имеют смысл в областях, где вам действительно нужна плотность, потому что вы ограничены в пространстве

sysadmin1138
источник
За исключением того, что архитектура SuperMicro Twin дает вам два компьютера на TU с двумя сокетами на компьютер - это похоже на то, что вы получаете с блейдами MOST. он определенно очень плотный;) Единственная известная мне плотность - это лезвия Dell, использующие мост плюща ... но они более ограничены по сравнению.
TomTom
@tomtom а супермикро твин предлагает избыточный псус? Мы только что построили один, и я нигде не видел этот вариант. Мы купили холодный запасной блок питания, чтобы иметь под рукой на всякий случай.
Джефф Этвуд
@JeffAtwood, я не видел избыточных блоков питания в двойняшках SuperMicro 1U, но их линейка двойных двойников-близнецов 2U действительно имеет их. Пример .
Чарльз
Кроме того, кого это волнует. Есть запасной блок питания в стойке. Замена занимает секунды.
TomTom
14

Этот вопрос может быть распространен на общее хранилище. Опять же, я бы сказал, что нам нужно два блока хранения вместо одного - и снова производители говорят, что все это настолько надежно, что никаких сбоев не ожидается.

Вообще-то, нет. Твои проблемы, до сих пор имевшие смысл, в этом предложении ставят их «читать вещи перед глазами». HA с полной репликацией является известной корпоративной функцией для единиц хранения. Дело в том, что SAN (Storage Storage намного сложнее, чем шасси с блейд-диском, которое в конце просто «тупой металл». Все в блейд-шасси, за исключением некоторых задних плат, является заменяемым - все модули и т. Д. Заменяемы, а отдельные блейды являются Разрешено отказывать. Никто не говорит, что центр лезвия сам по себе обеспечивает лезвия высокой доступности.

Это сильно отличается от SAN, который должен работать 100% времени - в согласованном состоянии - поэтому у вас есть такие вещи, как репликация и т. Д.

ЭТО СКАЗАЛ: следите за своими номерами. Я уже давно думал о покупке лезвий, и они НИКОГДА НЕ СДЕЛАЛИ ФИНАНСОВЫХ СМЫСЛОВ. Шасси просто слишком дорого, а лезвия на самом деле не дешевле по сравнению с обычными компьютерами. Я бы посоветовал взглянуть на архитектуру SuperMicro Twin в качестве альтернативы.

TomTom
источник
Близнецы и двойняшки (2U, 4 узла) - отличная альтернатива лезвиям. Intel также производит линейку серверов twin и twin-twin.
Чарльз
@ Чарльз Ты знаешь о новых толстых близнецах? 8 машин в 4 U;)
TomTom
Я видел один, но у меня не было возможности поиграть или оценить его.
Чарльз
4

Блейд-серверы, с которыми у меня был опыт, принадлежат IBM. Эти конкретные являются полностью модульными, и в них встроено много избыточности. Так что, если что-то пойдет не так, это будет один из компонентов, таких как блок питания или модульный коммутатор и т. Д. Но опять же, есть избыточность даже в них.

С тех пор как я работал с блейд-серверами IBM, я еще не видел полного отказа.

Я подозреваю, что с другими брендами они будут построены подобным образом.
Было бы неплохо также поговорить с продавцом и много читать.
Это большие инвестиции.

Matt
источник
1

Отказы, приводящие к отказам нескольких блейд-серверов в одном и том же корпусе, сопоставимы (по вероятности и причине) со сбоями, приводящими к нескольким сбоям серверов в одной стойке.

Первоначальная настройка для минимизации единичных точек отказа (два отдельных источника питания переменного тока, каждый из которых может обрабатывать всю нагрузку, работающих на отдельных источниках питания постоянного тока, так что любая половина может обрабатывать всю нагрузку; два отдельных сетевых подключения, либо который может обрабатывать всю ожидаемую нагрузку и т. д.), и разница между чем-то, что вынимает все блейд-модули в шасси или всеми 2U-серверами в стойке, очень мала.

mpez0
источник
1

Проблема, которую я очень часто читаю на разных форумах, заключается в том, что существует теоретическая вероятность того, что серверное шасси выйдет из строя, что впоследствии приведет к отключению всех блейдов. Это связано с общей инфраструктурой.

На самом деле! Около 5 лет назад, управляя двумя блейд-корпусами HP Proliant p-Class, я несколько раз сталкивался с проблемами с шасси.

У меня были блейд-серверы, которые не могли включиться, если они были выключены (серверы не выключаются часто, но все же стали для нас очень реальной проблемой). У меня внезапно отключились серверы, и я не смог их снова включить. Наконец, у меня были отключены все серверы, и я не смог снова включиться.

Насколько я помню, почти все проблемы были связаны с неисправными объединительными панелями питания или объединительными платами контроллера. Мы несколько раз заменяли их, и я получил специальное сообщение от технических специалистов о том, что у них есть свои проблемы с этим поколением корпусов блейдов.

Тогда я решил, что польза от блейд-серверов просто не стоит того риска, если мне есть что сказать в будущих покупках.

Перенесемся к моему следующему работодателю, и моему нынешнему, если уж на то пошло. В них уже работали корпуса HP Proliant c-Class, поэтому мое теплое чувство лезвия не имело значения. За 5 лет, что я имел дело с корпусами c-класса, я никогда не испытывал ничего подобного с p-классом, где целый корпус потерпел неудачу на мне. Они бегали без особых проблем.

(За исключением времени, когда ливень с дождем послал дождь через крышу, 4 этажа, небольшая дыра в уплотнении компьютерной комнаты, по кабелю и в корпус)

abstrask
источник
-1

В обоих корпусах DELL и HP Blade отсутствует избыточная средняя плоскость. Вот где IBM Bladecenter оказывается победителем. Насколько мне известно, это единственное лезвие шасси, которое обеспечивает избыточную среднюю плоскость. Хотя HP предлагает фантастический набор программного обеспечения для управления блейд-серверами, мы купили Bladecenter E для нашей компании, чтобы избежать единой точки отказа всего шасси.

Арун Шетти
источник
Это действительно то, что говорят мне маркетинговые материалы IBM; что они являются единственным поставщиком с полностью избыточным блейд-решением. Однако после прочтения других сообщений в этой теме кажется, что решения HP также поддерживают эту функцию.
Мартин