Как вы * отслеживаете и документируете текущее обслуживание?

10

Какое программное обеспечение или систему вы, ребята, используете по причине отказа сервера, чтобы напомнить вам о необходимости планового обслуживания? Как вы проверяете и регистрируете различные предметы, которые должны проверять? У вас есть внутренний документ процесса? Есть ли у вас cron письма каждую неделю с напоминаниями для проверки системных журналов?

Кроме того, вы работаете в команде по обслуживанию системы, и если да, то как вы координируете, кто будет заниматься каким обслуживанием?

Если для ввода задач вы используете систему отслеживания ошибок / ошибок, есть ли у вас задание cron для ввода повторяющихся задач?

Zak
источник

Ответы:

5

В настоящее время я использую Request Tracker ( http://www.bestpractical.com/rt ).
Все события обслуживания получают связанный тикет в очереди "systems". В заявку вносятся замечания о возникших проблемах, кто, когда и как работал, и т. Д. Вместе с необходимыми согласованиями.

В настоящее время наши повторяющиеся задачи (ежеквартальные исправления и т. Д.) Создаются вручную, но их можно достаточно легко автоматизировать (cron job + email).

Координировать, кто выполняет какую работу, для нас относительно легко, так как в нашей группе администраторов всего 2 человека, но по мере того, как мы расширяем план, мы создаем главный билет на мероприятия по обслуживанию и используем дочерние билеты, назначенные ответственным сторонам для делегирования работы. ,


Ежедневные вещи (проверки журналов и т. Д.) - это другое дело: я все это посвятил автоматизированным процессам:

  • InterMapper следит за общим состоянием серверов (запросы SNMP, требующие высокой нагрузки, небольшого дискового пространства и т. Д.), Функциональностью наших веб-интерфейсов и множеством других вещей, которые могут указывать на проблемы.
  • Syslog-NG собирает логи с наших хостов и передает их через несколько скриптов, которые проверяют наличие явных ошибок. Я иногда бросаю взгляд на журналы, чтобы проверить их работоспособность, но это не регулярно запланировано.
voretaq7
источник
2

Правильно реализованная автоматизация полностью устраняет необходимость в заданиях и контрольных списках. Почему вы вручную хотите проверить вещи, когда у вас есть компьютеры, которые могут выполнять работу гораздо более эффективно и результативно?

Все, что требует периодической проверки, проверяется системой мониторинга. Рутинные задачи автоматизируются всякий раз, когда это целесообразно, и напоминания отправляются для тех немногих задач, которые необходимо выполнить вручную. Документация - это другое дело, но если все сделано правильно, ваши компьютеры могут создавать собственную документацию.

Прекратите искать лучшие ручные способы и начните искать лучшие автоматизированные способы сделать любую работу. Компьютеры предназначены для нас, а не мы для них.

Джон Гарденье
источник
Хорошее эмпирическое правило: системный администратор всегда должен быть одновременно компетентным и ленивым. Желание не выполнять работу приведет хороших сисадминов к внедрению хорошей автоматизации.
voretaq7
Позвольте мне привести конкретный пример: мне нужно следить за исправлениями безопасности для Apache, затем генерировать новую сборку и тестировать ее, когда исправление выйдет. Рутинная часть - это мониторинг новой версии Apache. Невозможно просто обновить напрямую из (основного) репозитория, потому что в нем не будут собраны правильные модули. Кроме того, необходимо провести аудит, чтобы убедиться, что выпуски проверены. Это имеет больше смысла?
Зак
Кроме того, я не хочу просто запускать последнюю версию программного обеспечения, пока сборка не пройдет QA. Большая часть QA автоматизирована, но не все.
Зак
И есть ли причина, по которой нельзя все написать по сценарию? Автоматическая проверка обновлений, отправка вам оповещения, когда некоторые из них доступны, затем скомпилированная и установленная программа, готовая для тестирования. Пусть машина выполнит основную часть работы и сообщит вам, когда требуется ваше внимание.
Джон Гарденье
1

Для работы над проектом это происходит из приложения «Управление проектами» (электронная почта и календарь интегрированы с возможностью документировать подробную работу и планировать ее для определенных людей).

Для обслуживания, обновлений, исправлений и т. Д. У нас есть система заявок, которая более или менее интегрируется с нашим процессом управления изменениями для обработки запросов и планирования.

Для полностью внутренней работы и работы на длинных циклах (ежеквартально, ежегодно и т. Д.):

Напоминания, чтобы сделать вещи в календаре. Существует неформальная / полуформальная документация ("вики") для определения общего графика.

Существует некоторое количество «как» и процедурная документация о том, как выполнять задачи, и она доступна для всей команды, но у людей есть свои «черные книги» администратора и журналы с заметками и рецептами.

damorg
источник
1

Система мониторинга может помочь с этими вещами:

  • Мы документируем каждый раунд ежемесячного обслуживания в виде файла Word с флажками. Каждый месяц мы сохраняем отчет в папке на нашем NAS. Мы отслеживаем минимальный возраст файла папки. Если минимальный возраст файла превышает 40 дней, мы получаем сигнал тревоги.

  • Одной из частей нашего текущего обслуживания является перезагрузка выбранных серверов и устройств один раз в месяц. Мы используем датчики «времени безотказной работы системы» (SNMP / WMI) в нашем программном обеспечении для мониторинга, и если время безотказной работы превышает 40 дней, мы получаем сигнал тревоги.

  • Для резервного копирования мы отслеживаем минимальный срок хранения файлов в папке резервного копирования каждого сервера на нашем NAS. Если минимальный возраст файла превышает 10 дней, мы получаем сигнал тревоги.

Дирк Песслер
источник
1

Я использую Checkpanel ( https://checkpanel.com ) для управления текущими задачами по обслуживанию. Он предоставляет многоразовые контрольные списки и простой интерфейс для регистрации результатов каждой проверки.

После проверки предмета он не просто «готов», а остается доступным для дальнейших проверок. Каждая проверка записывается, так что вы можете легко просмотреть историю всех прошлых проверок элемента, включая дополнительные сведения (например, сообщения об ошибках для неудачных проверок).

Вы можете установить повторение для каждого элемента, чтобы убедиться, что вы проверяете его, по крайней мере, один раз в неделю / каждые 2 дня / и т. Д. Существует консолидированное представление всех причитающихся предметов. Если вы хотите, вы также можете получать ежедневные электронные письма со всеми необходимыми элементами.

Существует шаблон контрольных списков обслуживания сервера, который вы можете использовать в качестве основы для своих собственных контрольных списков. Другие шаблоны включают в себя контрольные списки для веб-приложений, WordPress и многое другое.

Раскрытие информации: я основатель Checkpanel.

Флориан Сандер
источник