Внезапные перезагрузки машины наблюдаются с помощью сторожевого таймера ipmiutil

1

Первоначально поднял на serverfault как этот вопрос

У меня есть рабочий сервер openSUSE 11.1 2.6.34.4 Intel с установленным стандартным ipmiutil-2.4.1.

Сторожевой таймер - это, по сути, аппаратный таймер на 90 секунд, отменяемый каждые 60 секунд из пространства пользователя заданием cron.

Причиной беспокойства является не сама перезагрузка сторожевого таймера, а неисправность основного сервера, которая его вызывает, если таковая вообще имеется. IMO-сторожевой таймер IPMI выполняет свою работу по восстановлению системы из неисправимого состояния.

Сервер, кажется, стал медленным / медленным. Я говорю это на основе «пропущенных / отсутствующих» / var / log / cron, syslog и других записей журнала приложений.

Это происходило случайным образом под нагрузочными тестами. Нагрузка - это в основном SIP-трафик на SIP-сервер. Проблема не легко воспроизводима, но это случается довольно часто. Это также не является детерминированным в отношении аппаратного обеспечения, времени, типа загружаемой нагрузки.

Я в своем уме и не знаю, плохой ли это драйвер , ошибка ввода- вывода , что-то в этом роде , приложение SIP или что-то еще.

У меня есть объемы подробных отчетов о работе системы:% usr,% nice,% sys,% iowait,% steal,% irq, pgpgin / s, pgpgout / s, fault / s, majflt / s, pgfree / s и т. Д. если нужно.

Ни один из отчетов о системной активности не указывает на что-то ненормальное (хотя я не утверждаю, что у меня точно тренированный глаз).

OP
источник

Ответы:

1

Я не думаю, что это хорошая идея - установить работу cron для этой критической задачи. Обратите внимание, что cron может блокировать другие задачи перед выполнением задачи наблюдения, как описано здесь . Исходя из того, что вы описываете, предполагая, что система не демонстрирует никаких ненормальных действий, кроме перезагрузки, весьма вероятно, что задание cron просто не запустилось вовремя.

Вы можете использовать автономные сторожевые демоны, которые будут сбрасывать таймер каждую секунду или около того. Я предлагаю вам использовать один из них. Смотрите BMC сторожевой .

Дэн Алони
источник