Какова стратегия обнаружения временного сдвига в дата-центре на основе Linux?

14

Какова стратегия обнаружения временного смещения во всех дата-центрах на основе Linux? Это более сложная проблема, чем кажется на первый взгляд.

Временной сдвиг может вызвать серьезные проблемы для определенных приложений, и часто, даже если NTP установлен, возможен сбой по следующим (и многим другим) причинам:

  • NTP не был правильно настроен на автоматический перезапуск при перезагрузке.
  • Настройки на сервере неверны, поэтому сервер времени, на который он указывает, недоступен или неточен.
  • Главный сервер времени недоступен, и все серверы синхронизируются с ним, теперь синхронизируются с ненадежным источником.

Я хотел бы узнать, все ли отдельные серверы верны. Помните, что сервер со сценарием / приложением тестирования может быть неправильным.

Стюарт Вудворд
источник
6
Я думаю, что ваши причины ложные, эксплуатация NTP имеет решающее значение для фермы. Убедитесь, что NTP работает правильно. Кроме того, разверните локальные главные часы.
user539484
NTP работает из коробки во многих дистрибутивах Linux с разумными настройками по умолчанию. Это в значительной степени не проблема сейчас.
Мэтт

Ответы:

20

Это легко контролировать. Управление конфигурацией является ключом ...

Убедитесь, что служба ntp запущена и настроена ...

Например, использование Monit для проверки ntpdработоспособности и перезапуска в случае сбоя - простой подход. Возможно, имеет смысл добавить cron и другие важные демоны для проверки такого рода.

Другим вариантом является использование инструмента управления конфигурацией , такого как Puppet, для принудительной установки того же ntpd.conf на ваши серверы и обеспечения установки, настройки и работы ntpd.

В протоколе NTP достаточно избыточностей, чтобы иметь дело с недоступным сервером времени. Укажите несколько источников.

ewwhite
источник
3
Я должен повторить это чувство. Управление конфигурацией и несколькими NTP-серверами - это довольно простые элементы инфраструктуры, приближающиеся к «центру обработки данных». Центр обработки данных среднего или большего размера должен иметь аппаратные часы. Источники времени GPS можно купить за несколько сотен, и если у вас есть паяльник <100 долларов.
Крис С
это решение + nagios
этот парень оттуда
4
Обратите внимание, что то , как вы проверяете ntpdстатус, очень важно. Вы не хотите просто сказать «ntpd работает. Все отлично!». Вы должны на самом деле убедиться, что ваша система синхронизируется и имеет функциональный одноранговый узел или что минимальное смещение между хостом и блоком мониторинга минимально . У Nagios есть check_ntp_peerи check_ntp_timeкакие справятся с этим, если вы хотите использовать Nagios.
voretaq7
NTPQ для проверки статуса
kubanczyk
10

Есть множество check_ntp плагинов для Nagios там.

Вот один из них:

http://nagiosplugins.org/man/check_ntp

Добавьте эту проверку на ваш хост nagios и получайте уведомления, если что-то пойдет не так.

dmourati
источник
Да, просто настройте свою систему мониторинга, чтобы убедиться, что время действительно, или, по крайней мере, смещение относительно системы мониторинга минимально.
Zoredache