Автоматизированное аппаратное тестирование серверов HP?

9

В рамках подготовки серверов мы запускаем программу HP Insight Diagnostics для тестирования оборудования. Это ручной процесс. Есть ли способ автоматизировать запуск Insight Diagnostics?

Существует программное обеспечение hpdiags с опцией «-rd:» «Запустить диагностику всех диагностируемых устройств». Из моих тестов это мало что дает (просто читает информацию SMART с дисков). Кому-нибудь повезло больше с этим?

Аппаратное обеспечение: BladeCenter c7000 с лезвиями HP ProLiant BL460c, DL360s.

ОС: ESXi и Ubuntu.

Марк Вагнер
источник
2
Короткий ответ: я не пытаюсь делать это в больших средах. Достаточно мониторинга и бортовой диагностики. Но можете ли вы предоставить некоторую информацию о моделях серверов, которые вы используете? И, возможно, задействованы операционные системы.
ewwhite
Я обновил билет с запрошенной информацией.
Марк Вагнер
Вы устанавливаете специфичные для HP версии ESXi? Вы устанавливаете Агенты управления HP в системах Ubuntu? Какие поколения являются серверами? G6? G7? Gen8?
ewwhite
Агенты управления HP установлены как в ESXi, так и в Ubuntu. Серверы Gen8 и будут Gen9.
Марк Вагнер
8
I updated the ticket with the requested info- Это заставило меня смеяться. Это не служба поддержки.
Joeqwerty

Ответы:

8

Итак, я задам другой вопрос:

Почему необходимо запускать диагностику оборудования HP Insight на серверах до инициализации?

В своем комментарии выше я указал, что выигрыш в этом случае превентивен в больших средах HP ProLiant. Я должен уточнить свои мысли по этому поводу ...

В порядке убывания частоты рассмотрим типы проблем, с которыми вы обычно сталкиваетесь:

  • Массив хранения и диски : RAID-контроллер будет сообщать операционной системе, журналам, SNMP, электронной почте, ILO и загораться красивыми индикаторами состояния.

  • ОЗУ : процесс POST обнаружит состояние ОЗУ, а также систему, сообщающую ОС, журналы, SNMP, электронную почту, ILO и загорается светодиодный индикатор на дисплее Insight Display (SID) на передней панели . Кроме того, я не фанат процессов записи оперативной памяти, поскольку обнаружение ошибок в этих системах уже устойчиво.

  • Тепловая защита и вентиляторы : температура сервера и скорость вращения вентилятора регулируются МОТ. В этих системах более 30 датчиков температуры , поэтому система охлаждения чрезвычайно эффективна. Это все еще сообщает ОС, журналам, SNMP, электронной почте и SID.

  • Источник питания : состояние блока питания передается в ОС, журналы, протокол SNMP, электронная почта и SID, а также на индикаторную лампу на фактическом блоке питания.

  • Общее состояние : это легко оценить с помощью дисплея SID в дополнение к индикатору внутреннего и внешнего здоровья. Об этом также сообщается в журналах сервера, SNMP, электронной почте и МОТ.

введите описание изображения здесь

Я не могу вспомнить какие-либо условия, которые были бы обнаружены перед развертыванием, о которых не / нельзя было бы сообщить во время выполнения или после установки ОС.

Цикл диагностики обычно не находит ничего при запуске в системе без явных предшествующих проблем. Это происходит главным образом потому, что серверу необходимо выполнить POST и загрузиться в утилиту или встроенное ПО Intelligent Provisioning для запуска утилиты.

Иными словами, любой элемент, который будет серьезным «SPOF» для сервера, вероятно, помешает системе запустить самодиагностику.

Наиболее распространенные элементы отказа все еще довольно устойчивы; диски должны быть в RAID и иметь возможность горячей замены. Вентиляторы и блоки питания также могут быть заменены в горячем режиме. Ваша оперативная память имеет пороговые значения ECC, и для большинства платформ ProLiant доступны онлайн-опции. Вы ничего не сможете сделать, чтобы вызвать сбой в этих компонентах, запустив диагностику. Добавьте тот факт, что вы используете блейд-серверы HP C7000 с внутренним резервированием , и вероятность сбоя должна быть довольно низкой.

ewwhite
источник
Проблема заключается в том, что (а) обнаружена ошибка после установки ОС (т. Е. Сервер находится в рабочем состоянии), (б) восстановление не может быть выполнено в режиме онлайн или неисправный компонент является SPOF для сервера, и (с) сервер является SPOF, тогда Вы будете испытывать простои (либо сразу, либо когда система отключена для ремонта). Чтобы предотвратить вывод, нужно предотвратить одно из условий. Я собирался (а) обнаружить неисправность до производства. Я ценю вашу тщательность в подробном описании возможностей отчетности, но я стараюсь избежать необходимости сообщать о них в первую очередь, потому что они не происходят.
Марк Вагнер
Цикл диагностики HP, скорее всего, ничего не найдет, учитывая, что серверу необходимо выполнить POST и загрузиться в утилиту или Intelligent Provisioning для запуска диагностики. Наиболее распространенные элементы отказа довольно надежны; диски, вентиляторы и блоки питания имеют горячую замену, в ОЗУ установлены пороги ECC. Вы ничего не сможете сделать, чтобы вызвать сбой в этих компонентах.
ewwhite