Я нахожусь в среде, содержащей множество серверов Supermicro, оборудованных аппаратными RAID-контроллерами Adaptec и LSI MegaRAID . Эти контроллеры содержат кэш-модули с батарейным питанием, которые помогают повысить производительность записи и защитить данные в пути.
Частыми проблемами поддержки является сбой батареи контроллера RAID. Это сдвигает массив от обратной записи для записи через режим. Очевидно, что это отрицательно сказывается на производительности, поскольку система работает с пониженной скоростью записи. Это продолжается до тех пор, пока не будет установлено окно простоя для отключения системы и замены батареи.
Это очень рутинная операция для нас; почти еженедельно на нескольких тысячах физических серверов ... У нас даже есть зарядные станции для подготовки сменных батарей, чтобы их можно было заменить без цикла зарядки.
Возможно, я испорчен долгой историей с серверами HP ProLiant и RAID-контроллерами Smart Array , но у систем HP срок службы батареи обычно составляет 4-6 лет. В конце концов они прекратили использование батарей RAID примерно в 2009 году. Они были заменены модулями памяти с суперконденсаторами (флэш-кэш записи или FBWC) и не требуют замены, утилизации или длительного начального цикла зарядки.
Поскольку я вижу, что сбои батареи контроллера Adaptec и LSI иногда происходят в системах, которые эксплуатируются менее 12 месяцев, мне интересно, распространено ли это в других средах.
Если это распространено, как другие крупные серверные среды справляются с этим?
- Какие-либо советы или рекомендации по замене батарей RAID?
- Существуют ли какие-либо параметры конфигурации, которые могут помочь?
- Насколько это мешает работе в вашей среде?
- Может ли плохое охлаждение шасси и температура быть фактором?
- Мы делаем что-то не так?
- Контроллеры Dell PERC производятся компанией LSI. В средах Dell одинаковое время работы от батареи?
Литература по продуктам LSI, в которой описывается аккумулятор нового поколения, который может прослужить дольше, чем 1 год.
Сервер HP ProLiant DL585 G2 с 1000+ дневным временем безотказной работы и счастливой батареей RAID ...
# uptime
05:38:08 up 1031 days, 44 min, 31 users, load average: 0.49, 0.64, 0.99
# hpacucli
Cache Board Present: True
Cache Status: OK
Accelerator Ratio: 50% Read / 50% Write
Total Cache Size: 512 MB
Battery Pack Count: 1
Battery Status: OK
источник
Ответы:
Я подозреваю, что ваши Supermicro сломаны так или иначе - возможно, аккумуляторы перегреваются. Самые последние LSI сообщают о температуре через MegaCLI - вы можете отслеживать это значение на серверах, которые нуждались в замене.
Я видел пару систем Dell и Fujitsu с контроллерами LSI BBU, и ни у одной из них не было ежегодной замены батарейного блока (за исключением случаев, когда вы испортили батарею из-за глубокого разряда). Типичный срок службы составляет от 3 до 5 лет.
источник
Средний срок службы батареи должен составлять 3-5 лет. И не забывайте, что FBWC на основе флеш-памяти также дает сбой. Я не знаю почему / как, но мы регулярно заменяли их на наших серверах HP. Я должен работать дольше, чем батарея, но у меня нет статистики с наших отдельных серверов.
Стандартный способ предотвращения последствий неисправной батареи и обучения батареи состоит в том, чтобы иметь несколько батарей. Вот как у него есть хранилище HP (например, HP EVA). У вас есть 2 батареи с «горячей» заменой, и, хотя одна из них разряжена или заменяется, контроллер работает с оставшейся. Я не уверен, возможно ли подключить несколько батарей к SmartArray, но
hpacucli
diag
вывод предполагает, что он должен поддерживаться:источник
Мой опыт работы с версиями IBM платформ LSI после нескольких сотен установок заключается в том, что средняя батарея едва ли составляет 2 года, а суперкап не лучше, некоторые из них можно исправить с помощью обновления прошивки, но у LSI его просто нет. право. У меня было около 75% отказов суперкап в первые 2 года.
источник