Высокая нагрузка на сервер nagios. Сколько проверок службы для сервера nagios слишком много?

9

У меня есть сервер nagios под управлением Ubuntu с процессором Intel с тактовой частотой 2,0 ГГц, массивом RAID10 и 400 МБ оперативной памяти. Он контролирует в общей сложности 42 службы на 8 хостах, большинство из которых проверяются с помощью плагина check_http даже 5 минут, некоторые каждую минуту. В последнее время нагрузка на сервер nagios была выше 4, часто до 6. Сервер также запускает cacti, собирая статистику каждую минуту для 6 хостов.

Интересно, сколько сервисов должно поддерживать такое оборудование? Является ли нагрузка такой высокой, потому что я раздвигаю границы аппаратного обеспечения, или это оборудование должно быть в состоянии обработать 42 сервисных проверки плюс кактусы? Если аппаратное обеспечение не отвечает требованиям, стоит ли мне добавлять больше оперативной памяти, больше ядер или более быстрые ядра? Какие аппаратные / сервисные проверки выполняются другими?

мистифицировать
источник
Как выглядит оперативная память на сервере? И как выглядит использование процессора? Если это высоко, то какие процессы его привязывают?
3dinfluence
Вы решили проблему? Мы испытываем ту же проблему. Средняя загрузка 12 ..
Джон

Ответы:

7

Вы должны выяснить, где ваше узкое место ...

Я запускаю монитор nagios, который проверяет 400+ хостов с помощью http, ping и ssh. (наряду с множеством других пассивных проверок и nscd)

Это на сервере 2xQuadCore с 4 дисками SAS в RAID10.

Я подозреваю, что у вас есть конфликт ввода-вывода, так как запись большого количества rrds очень неэффективна.

Вы должны выяснить, какой процесс занимает ваши ресурсы. (кактусы, нагио или что-то еще)

Для проверки IO мне нравится iotop. Установите iotop (пакет 9.04 работает на 8.04)

Но в противном случае верх также должен помочь вам найти грузоподъемность.

Кактусы раз в минуту довольно агрессивны. (Я бегу с интервалом 5 м)

Один из подходов, о которых я слышал в отношении конфликтов записи rrd, - это поместить ваши rrd-хранилища на ramdisk / tmpfs (убедитесь, что rsync то и дело постоянно используется)

Удачи.

Джоэл К
источник
Спасибо. Я посмотрю на это. Это, вероятно, кактусы, генерирующие нагрузку, и я посмотрю, есть ли способ переместить rrds в tmpfs. Или просто добавьте больше оперативной памяти, чтобы сервер мог буферизовать rrds. Я боюсь, что если я буду запускать кактусы каждые 5 минут, могут быть скачки нагрузки, которые длятся всего 1 или 2 минуты, которые я бы полностью пропустил ...
Джош
6

Если это не кактусы, генерирующие большую часть нагрузки, тогда вы сможете выполнить гораздо больше проверок, чем на вашем оборудовании.

Я запускаю nagios на виртуальной машине FreeBSD, работающей на Microsoft Virtual Server, на старом медленном компьютере (Pentium 3 1 ГГц с медленным диском PATA). Виртуальная машина имеет только 128 МБ ОЗУ, и производительность ужасна.

Тем не менее, средняя загрузка составляет около 0,2, выполняя 158 проверок на 42 хостах.

hmallett
источник
Спасибо. Я хотел бы принять оба ответа! Вы были очень полезны, это говорит мне о том, что кактусы, вероятно, виновник.
Джош
2

На старом PIII с 256 МБ оперативной памяти я активно отслеживаю около 230 различных сервисов. На этой же машине работают MRTG и HylaFAX для всех наших входящих факсов, и она делает это довольно удобно.

Джон Гарденье
источник
Очень полезная информация. Это указывает на то, что виноваты, вероятно, кактусы, а не нагиос. Спасибо!
Джош
1

Вы должны быть в состоянии выполнить проверку nagios с этим оборудованием. Мы запустили аналогичную установку с примерно 70 проверками и Nagiosgraph - главное отличие заключается в добавлении оперативной памяти (это дешево, поэтому я бы увеличил размер окна до 2 Гб).

Попробуйте запустить top или ps -aux, чтобы увидеть, перегружен ли процессор, но я сомневаюсь в этом. Вы также можете проверить документы по распараллеливанию nagios, чтобы увидеть, пытается ли ваша установка запустить слишком много проверок одновременно, а не сериализовать их.

hurfdurf
источник