Как вы контролируете мониторинг сервера?

14

Поэтому мы запускаем Groundworks (с Nagios) на CentOS для мониторинга наших различных серверов и процессов. Он настроен на автоматическую отправку сообщений электронной почты и SMS-сообщений, когда ситуация достигает ПРЕДУПРЕЖДЕНИЯ или КРИТИЧЕСКОГО состояния Обычно это работает отлично. Однако дважды у нас были проблемы с Postfix на том сервере, где Postfix решает прекратить отправку электронной почты. Последнее время длилось 4 дня, потому что никто из нас не заметил.

Это приводит меня к важному вопросу: как я должен контролировать свой сервер мониторинга?

organicveggie
источник
5
Quis Custodiet Ipsos Custodes?
Джеймс Л
Хех. Ювенал. Красиво сыграно.
Organicveggie
Кто следит за сторожами? : D
Florent Courtay
1
@organicveggie, Сервер мониторинга - это тоже сервер ... С какими проблемами вы бы столкнулись, используя сервер мониторинга для мониторинга сервера мониторинга?
Pacerier

Ответы:

12

Со вторым сервером мониторинга, конечно. Второй способ может быть намного проще, так как все, что ему нужно сделать, это контролировать первый. И это, конечно же, должно контролироваться основной системой мониторинга.

Если ваша группа является частью более крупной организации с отдельной ИТ-инфраструктурой, вы можете договориться о том, чтобы служба мониторинга другой группы следила за вашей.

Вы также можете убедиться, что сервер отправляет сообщение «все в порядке» каждый день, и привыкнуть к его поиску. (Конечно, это эффективно, только если вы не перегружены рутинными сообщениями.)

mattdm
источник
14

Другие люди предлагают отправлять регулярные сообщения о том, что все в порядке, но лично я не согласен с этим. Мониторинг должен молчать, если нет проблем, и никогда не должен полагаться на то, что пользователь замечает, что что-то не так, например: «О, я не получал эту ежедневную электронную почту в течение нескольких дней». Особенно, если у вас есть несколько человек, отвечающих на предупреждения, каждый может подумать, что другой уже удалил ежедневное сообщение «Я в порядке».

У нас есть внешний сервис (которых сотни, но мы используем червя ) для проверки HTTP нашего сервера мониторинга, чтобы убедиться, что он работает и может выходить в Интернет. Это наша основная задача по мониторингу. Затем наш сервер Nagios контролирует все наши клиенты.

Но вы подняли хороший вопрос. Мы , вероятно , следует добавить HTTP URL , который проверяет очереди постфикса и если он показывает необычное количество сообщений, которые , вероятно , означает , что он имеет какой - либо в очереди, а затем поднять тревогу. Другим вариантом будет использование различных методов оповещения, скажем, не-SMTP агента доставки SMS, а также SMTP, который мы используем в настоящее время.

Однако в нашем случае я не могу вспомнить, чтобы у нас когда-либо был почтовый сервер. Конечно, все, для чего используется почтовый сервер - это отправка оповещений Nagios, поэтому конфигурация очень проста и почти никогда не меняется.

Шон Рейфшнайдер
источник
2
Обычные сообщения ОК не очень полезны: вы не можете надежно заставить человека совершить действие в отсутствие стимула.
Тим Уиллискрофт
@Tim: Извините, но «отсутствие стимула» не описывает ситуацию, когда ожидаемое письмо не получено. В таком случае, я думаю, я был бы "стимулирован" расследовать, почему сообщение не пришло. Но, возможно, это только я. :)
Стивен Понедельник
1
Я думаю, что пишу, используя психологические термины, которые не означают того, что, по вашему мнению, они имеют в виду. Поведенческая психология и авиационная психология могут многое рассказать системным инженерам. Эта область была интенсивно разработана во Второй мировой войне, чтобы заставить 18-20-летние экипажи летать на современных самолетах без сбоев, а также уделять внимание их реальным военным задачам. Вот почему у самолетов есть главный предупредительный световой сигнал, а не свет "все в порядке". TLDR (я не думаю, что это слово означает то, что вы думаете, что оно означает)
Тим Виллискрофт
1
Я очень твердо убежден в том, что системы не должны шуметь, если только человек не требует внимания. У нас ограниченное внимание, и компьютеры могут легко подавить нас маленькими всплесками, такими как «Я жив!». Кроме того, то, что происходит, но не указывает на проблемы, заставляет людей игнорировать вещи. Я очень много работаю, чтобы убедиться, что когда что-то приходит к человеку, это то, что ему действительно нужно увидеть. Я работаю с кем-то, кто каждый день просматривает журналы, которые он просматривает. Конечно, он так занят, что не может выйти на обед ...
Шон Рейфшнайдер
1
Я согласен, что службы не должны отправлять слишком много сообщений, или люди быстро начинают игнорировать их. Однако, если система мониторинга настроена правильно, вы не должны получать много сообщений. Конечно, у нас есть политика подтверждения уведомлений от Groundworks / Nagios, которая эффективно останавливает сообщения на определенный период времени. Если это длительное отключение, мы отключаем мониторинг системы или службы. В результате ежедневное сообщение «Я жив» на самом деле довольно разумно.
Organicveggie
5

Очевидно, ваш постфикс тоже должен отслеживаться, но это уже другая тема;)

Я использую плагин Nagios Checker для Firefox , он всегда работает в строке состояния на любом компьютере, которым я регулярно пользуюсь.

Кроме того, у меня есть собственный скрипт на внешнем хосте, который пингует хост nagios и отправляет SMS, если он не отвечает на эхо-запросы.

До сих пор (5+ лет) все работало нормально (стук по дереву).

Александар Иванишевич
источник
2

Для мониторинга серверов (в нашем случае это nagios), бесплатный или базовый план Pingdom или alertfox отлично работает.

BXAtWork
источник
Хорошие предложения. Но в этом случае наш сервер мониторинга недоступен за пределами брандмауэра. Так что Pingdom и Alertfox на самом деле не работают для нас.
Organicveggie
1

Первое: пусть он отправляет сообщения «Я жив» один или два раза в день. Во-вторых, для этой цели я использую старую машину, у которой есть другой GSM-модем, небольшой ИБП и т. Д. И выделенное (прямое) соединение с основным сервером мониторинга. Это помогает и в третьем пункте: убедитесь, что вы регулярно проверяете состояние своих систем мониторинга. Небольшая вспомогательная система мониторинга постоянно отображает страницу состояния основной системы в моем офисе.

Свен
источник
1

Если ваш сервер мониторинга доступен из интернета, его следует контролировать со стороны внешнего поставщика (например, websitepulse et. Al.).

текс
источник