Как заставить серверы HP отправлять мне электронные письма в случае сбоя диска?

11

В идеале, с максимально простой установкой и без перезагрузки серверов. Главным образом, DL380 G5'sесли это помогает.

DrZaiusApeLord
источник
Жаль, что они не G7, или вы можете использовать HP Insight Manager.
Том О'Коннор
Ваши серверы работают под управлением Windows или Linux?
Том О'Коннор
Какие операционные системы вы используете на этих серверах?
Ewwhite
Они все 2003 или 2008 как ваниль и R2. Я играл с SIM-картой, но он не мог разговаривать с моими G5.
DrZaiusApeLord
SIM-карта должна быть совместима с G5 ProLiants. У вас были установлены агенты, когда вы пытались раньше?
Ewwhite

Ответы:

16

Это немного зависит от операционных систем, на которых вы работаете на серверах, но в целом можно получать предупреждения от серверов HP ProLiant и RAID-контроллеров Smart Array.

Полный список драйверов и программного обеспечения для ваших систем DL380 G5 приведен здесь .

SNMP и решение для мониторинга - лучший подход ... Но вы можете дополнить это некоторыми инструментами HP. HP предлагает HP Systems Insight Manager , который доступен для загрузки, а также поставляется с серверами. Это идеально подходит для коллекций серверов. Если вы ищете одноразовые оповещения без создания инфраструктуры управления или мониторинга, вы можете просто установить Агенты управления HP (также известный как ProLiant Support Pack ).

Для автономных систем Linux, я заставлю агентов отправлять ловушки по электронной почте. Я обычно настраиваю пакет поддержки с настройками по умолчанию или пользовательским комплектом , затем редактирую /opt/hp/hp-snmp-agents/cma.confи изменяю trapemailстроку, чтобы она указывала на адрес получателя:

########################################################################
# trapemail is used for configuring email command(s) which will be
# executed whenever a SNMP trap is generated.
# Multiple trapemail lines are allowed.
# Note: any command that reads standard input can be used. For example:
#             trapemail /usr/bin/logger
#       will log trap messages into system log (/var/log/messages).
########################################################################
trapemail /bin/mail -s 'HP Insight Management Agents Trap Alarm' systems@1234.net

Если вы работаете в Linux и не хотите устанавливать полный пакет управления HP, вы можете разработать скрипт для утилиты cciss_vol_status для запроса состояния контроллера / диска. См. Также: Установка агентов HP на OpenFiler.

ewwhite
источник
какой-нибудь элегантный способ проверить оповещение о сбое RAID-массива, кроме извлечения диска из слота? У меня есть пара ProLiant DL360 G7серверов, и HP SIM настроен для мониторинга.
Банджер
Не то, что я знаю из. Агенты Insight определенно работают. Если вы можете видеть состояние массива с помощью утилиты hpacucli и знаете, что получаете оповещения в HP SIM, я думаю, будет справедливо предположить, что все будет работать.
ewwhite
3

Я использовал облегченную программу, которую @ewwite упомянул в своем ответе: cciss_vol_status

Если вы будете следовать сопровождающим инструкциям INSTALL, сценарий будет помещен в /usr/local/bin/cciss_vol_status.

Вот скрипт-обертка, который я использую для получения вывода cciss_vol_status и отправки электронного письма, если какой-либо массив имеет состояние FAILED.

#!/bin/bash
#
# Check status of RAID volumes on HP Smart Array controllers.  Send an email
# alert if any volumes have a FAILED status.
#
status=`/usr/local/bin/cciss_vol_status /dev/sd*`

# email lock file
lockfile=/tmp/raid.check.hp.smartarray.lock
# how often to send an email (minutes)
_notification_freq=59
_host=`hostname`
# To: email
_toemail=root

# create email lock file
[ ! -f ${lockfile} ] && /bin/touch ${lockfile}

if echo $status | grep -q FAILED
then
    # make sure we haven't sent a notification in the last X minutes
    if test `find ${lockfile} -mmin +${_notification_freq}`
    then
        echo -e "${status}" | /bin/mail -s "System Alert! RAID failure on ${_host}" ${_toemail}

        # update lock file mod time
        /bin/touch ${lockfile}
    fi
fi

Вызовите вышеуказанный скрипт в cron. Я запускаю проверку каждые две минуты:

*/2 * * * * /usr/local/bin/raid.check.hp.smartarray.sh

Мы используем HP System Insight Manager, чтобы проверить, работают ли наши HP, но ничего кроме этого. Я обнаружил, что агент Linux является для нас излишним, поскольку у нас есть другие решения для мониторинга, поэтому приведенный выше сценарий хорошо выполняет свою конкретную задачу.

ОБНОВИТЬ

Просто совет по устранению неполадок на случай, если вы столкнетесь с этим. Этот скрипт оказался полезным сегодня утром, когда я получил письмо о сбойном массиве с:

Достигнут грязный предел

Устройство прошло только для чтения и не было видно в /proc/partitions. Я перезагрузил сервер и увидел эти сообщения при загрузке:

Логический диск отключен из-за возможной потери данных. Выберите «F1», чтобы продолжить с отключенными логическими дисками. Выберите «F2», чтобы принять потерю данных и повторно включить логические диски.

Я выбрал F2 и RAID был в порядке и смонтирован при загрузке.

Banjer
источник
1

установить smartmontools. Письма вам, прежде чем диск не удается.

Stephan
источник
2
~ 30% времени. СМАРТ не серебряная пуля.
HopelessN00b