В настоящее время я использую Request Tracker ( http://www.bestpractical.com/rt ).
Все события обслуживания получают связанный тикет в очереди "systems". В заявку вносятся замечания о возникших проблемах, кто, когда и как работал, и т. Д. Вместе с необходимыми согласованиями.
В настоящее время наши повторяющиеся задачи (ежеквартальные исправления и т. Д.) Создаются вручную, но их можно достаточно легко автоматизировать (cron job + email).
Координировать, кто выполняет какую работу, для нас относительно легко, так как в нашей группе администраторов всего 2 человека, но по мере того, как мы расширяем план, мы создаем главный билет на мероприятия по обслуживанию и используем дочерние билеты, назначенные ответственным сторонам для делегирования работы. ,
Ежедневные вещи (проверки журналов и т. Д.) - это другое дело: я все это посвятил автоматизированным процессам:
- InterMapper следит за общим состоянием серверов (запросы SNMP, требующие высокой нагрузки, небольшого дискового пространства и т. Д.), Функциональностью наших веб-интерфейсов и множеством других вещей, которые могут указывать на проблемы.
- Syslog-NG собирает логи с наших хостов и передает их через несколько скриптов, которые проверяют наличие явных ошибок. Я иногда бросаю взгляд на журналы, чтобы проверить их работоспособность, но это не регулярно запланировано.
Для работы над проектом это происходит из приложения «Управление проектами» (электронная почта и календарь интегрированы с возможностью документировать подробную работу и планировать ее для определенных людей).
Для обслуживания, обновлений, исправлений и т. Д. У нас есть система заявок, которая более или менее интегрируется с нашим процессом управления изменениями для обработки запросов и планирования.
Для полностью внутренней работы и работы на длинных циклах (ежеквартально, ежегодно и т. Д.):
Напоминания, чтобы сделать вещи в календаре. Существует неформальная / полуформальная документация ("вики") для определения общего графика.
Существует некоторое количество «как» и процедурная документация о том, как выполнять задачи, и она доступна для всей команды, но у людей есть свои «черные книги» администратора и журналы с заметками и рецептами.
источник
Система мониторинга может помочь с этими вещами:
Мы документируем каждый раунд ежемесячного обслуживания в виде файла Word с флажками. Каждый месяц мы сохраняем отчет в папке на нашем NAS. Мы отслеживаем минимальный возраст файла папки. Если минимальный возраст файла превышает 40 дней, мы получаем сигнал тревоги.
Одной из частей нашего текущего обслуживания является перезагрузка выбранных серверов и устройств один раз в месяц. Мы используем датчики «времени безотказной работы системы» (SNMP / WMI) в нашем программном обеспечении для мониторинга, и если время безотказной работы превышает 40 дней, мы получаем сигнал тревоги.
Для резервного копирования мы отслеживаем минимальный срок хранения файлов в папке резервного копирования каждого сервера на нашем NAS. Если минимальный возраст файла превышает 10 дней, мы получаем сигнал тревоги.
источник
Я использую Checkpanel ( https://checkpanel.com ) для управления текущими задачами по обслуживанию. Он предоставляет многоразовые контрольные списки и простой интерфейс для регистрации результатов каждой проверки.
После проверки предмета он не просто «готов», а остается доступным для дальнейших проверок. Каждая проверка записывается, так что вы можете легко просмотреть историю всех прошлых проверок элемента, включая дополнительные сведения (например, сообщения об ошибках для неудачных проверок).
Вы можете установить повторение для каждого элемента, чтобы убедиться, что вы проверяете его, по крайней мере, один раз в неделю / каждые 2 дня / и т. Д. Существует консолидированное представление всех причитающихся предметов. Если вы хотите, вы также можете получать ежедневные электронные письма со всеми необходимыми элементами.
Существует шаблон контрольных списков обслуживания сервера, который вы можете использовать в качестве основы для своих собственных контрольных списков. Другие шаблоны включают в себя контрольные списки для веб-приложений, WordPress и многое другое.
Раскрытие информации: я основатель Checkpanel.
источник