Как получить уведомление, когда машина Linux, оснащенная памятью ECC, распознает сбой памяти? Меня интересуют как исправимые, так и неисправимые ошибки.
- если сообщение пишется в dmesg / syslog, это уже нормально, но я бы хотел знать, что искать
- установка дополнительных демонов (например, smartmontools для жестких дисков) приемлема
- Мониторинг Nagios / Icinga был бы другим путем
- не все машины для мониторинга имеют IPMI
Интересующие системы имеют платы Supermicro (X9SCM-F), что касается микросервера HP N54L. Мне просто любопытно, но меня это не волнует. Все системы работают под управлением Debian или Ubuntu Linux.
mcelog
во время мониторинга системного журнала, кажется, путь.Ответы:
Linux ядро поддерживает обнаружение и исправление ошибок ( EDAC ) особенность некоторых чипсетов. В поддерживаемой системе с ECC статус вашего контроллера памяти доступен через sysfs:
Дерево каталогов в этих местах должно соответствовать вашему оборудованию, например:
В зависимости от вашего оборудования, вам, возможно, придется явно загрузить нужный драйвер edac, ср .:
edac-utils
Пакет обеспечивает внешний интерфейс командной строки и библиотеку для доступа к этим данным, например:Вы можете настроить некую работу cron, которая периодически вызывает
eac-util
и передает результаты в вашу систему мониторинга, где вы можете настроить некоторые уведомления.В дополнение к этому, бег,
mcelog
как правило, хорошая идея. Зависит от системы, но неисправимые / исправимые ошибки ECC, скорее всего, также регистрируются как исключение машинной проверки ( MCE ). Я имею в виду, что даже краткие периоды дросселирования процессора из-за более высокой температуры сообщаются как MCE.источник
mcelog
будет следить за контроллером памяти и сообщать об ошибках памяти в системный журнал, а в некоторых конфигурациях может отключать плохие страницы памяти . Это, конечно, в дополнение к его обычному использованию для мониторинга исключений проверки компьютера и множества других аппаратных ошибок.В большинстве дистрибутивов Linux есть служба, настроенная для ее запуска в качестве демона, например, для EL 6:
источник
Это зависит от вашего серверного оборудования. Система Whitebox или Supermicro справится с этим иначе, чем Dell, HP или IBM ...
Одна из дополнительных возможностей высокопроизводительных серверов заключается в том, что существует уровень интеграции оборудования и ОС. Более качественные серверы сообщат о том, что вы ищете, в составе агентов управления и / или решения для внеполосного управления (ILO, DRAC, IPMI).
Вы должны использовать инструменты, встроенные в вашу аппаратную платформу.
Выдержка из серверов HP ProLiant под управлением Linux и агентов управления HP:
а также
или более серьезный
или самое худшее ... Игнорирование ошибки в течение 6 дней, пока не произойдет сбой сервера из-за плохой оперативной памяти
Они были зарегистрированы, а также были отправлены SNMP-ловушки и электронные письма.
В общем, вы увидите исключения машинной проверки в кольцевом буфере ядра, так что вы можете проверить
dmesg
или запустить mcelog . В моем опыте с Supermicro gear без IPMI, который не ловил все, и у меня все еще были ошибки ОЗУ, проскальзывавшие сквозь трещины и приводившие к сбоям. К сожалению, это привело к устаревшим политикам выгрузки оперативной памяти перед развертыванием системы.источник