Я искал MTTF, MTBF, MTBR и MTBF для наших серверов HP Gen9, работающих в нашей производственной среде.
Корень моего вопроса, должен волноваться или нет.
Я не могу получить какие-либо хорошие данные, так как на каждом сервере установлено несколько аппаратных средств.
В моей последней компании у нас было около 2000 серверов dell r210 r410 r710. Я бы сказал, что в среднем у нас было около 5 серверов в день, которые имели какой-то сбой. Таким образом, около 0,25% сервера вышло из строя и требовалось заменить часть, прежде чем его можно было снова использовать.
В моей последней компании все было настроено в виде пары высокой доступности, инфраструктуры N + 2, поэтому не было никакого влияния на производство. Мы смогли заменить серверы и продолжать
В моем текущем офисе у нас работает 9 серверов (HP Gen9, Hyper-V 56 ВМ), мы не храним много запасных частей под рукой, также не управляется центр обработки данных, поэтому, если что-то умирает, нам нужно подождать около 45 минут, чтобы заменить что-нибудь.
Мой технический директор или ИТ-менеджер, похоже, обеспокоены, у них было около 2,5 дней простоя в прошлом году, я уверяю нас в необходимости кластеризации серверов, но они не видят в этом необходимости.
Здесь что-то не так или нет? Не уверен, что делать.
Я знаю, что это не моя ответственность, если что-то случится с CTO. Это очень маленькая компания, только технический директор, ИТ-менеджер, я (dev ops) и 1 сотрудник службы поддержки.
По всему опыту работы с производственной средой, он очень ограничен, способ настройки многих вещей я бы назвал очень младшим, ни мой технический директор, ни ИТ-менеджер не знали много о кластеризации до того, как я туда попал. Они были в середине проекта по настройке DR без HA, который я предположил, но проиграл.
источник
Ответы:
Не беспокойтесь о показателях MTTF, MTBF, MTBR и MTBF ... почему они относятся к специфике вашей среды?
Серверы имеют внутренние резервы и могут быть чрезвычайно стабильными в работе. Но это зависит от вашей среды, дискового массива / состава, типов дисков, количества оперативной памяти, конфигурации процессора, тепловых характеристик, мощности и т. Д.
Использование какой-либо формы высокой доступности может снизить вероятность простоев и дает вам возможность перенести рабочую нагрузку в случае сбоя.
Это вопрос финансового и операционного риска.
Возможно, дополнительные затраты на переход от автономного к кластерному хранилищу достаточно высоки, что не имеет смысла для бизнеса? Возможно, простоя в течение 2,5 дней (доступность ~ 99,3%) достаточно для вашей работы. Вы должны сосредоточиться на внешней защите и хороших резервных копиях. Все ваши системы HP Gen9 имеют гарантию производителя сегодня, так что вы действительно имеете доступ к частям. Если у вас есть RAID, резервные блоки питания / вентиляторы и стабильное питание, вы охватили самые важные области.
Подумайте об этом с финансовой точки зрения, обрисуйте риски, связанные с этим расходы и постарайтесь найти убедительное экономическое обоснование того, что вы хотите.
источник