Аппаратный RAID-контроллер кэш батареи с частотой / срок службы батареи?

14

Я нахожусь в среде, содержащей множество серверов Supermicro, оборудованных аппаратными RAID-контроллерами Adaptec и LSI MegaRAID . Эти контроллеры содержат кэш-модули с батарейным питанием, которые помогают повысить производительность записи и защитить данные в пути.

Частыми проблемами поддержки является сбой батареи контроллера RAID. Это сдвигает массив от обратной записи для записи через режим. Очевидно, что это отрицательно сказывается на производительности, поскольку система работает с пониженной скоростью записи. Это продолжается до тех пор, пока не будет установлено окно простоя для отключения системы и замены батареи.

Это очень рутинная операция для нас; почти еженедельно на нескольких тысячах физических серверов ... У нас даже есть зарядные станции для подготовки сменных батарей, чтобы их можно было заменить без цикла зарядки.

Возможно, я испорчен долгой историей с серверами HP ProLiant и RAID-контроллерами Smart Array , но у систем HP срок службы батареи обычно составляет 4-6 лет. В конце концов они прекратили использование батарей RAID примерно в 2009 году. Они были заменены модулями памяти с суперконденсаторами (флэш-кэш записи или FBWC) и не требуют замены, утилизации или длительного начального цикла зарядки.

Поскольку я вижу, что сбои батареи контроллера Adaptec и LSI иногда происходят в системах, которые эксплуатируются менее 12 месяцев, мне интересно, распространено ли это в других средах.

Если это распространено, как другие крупные серверные среды справляются с этим?

  • Какие-либо советы или рекомендации по замене батарей RAID?
  • Существуют ли какие-либо параметры конфигурации, которые могут помочь?
  • Насколько это мешает работе в вашей среде?
  • Может ли плохое охлаждение шасси и температура быть фактором?
  • Мы делаем что-то не так?
  • Контроллеры Dell PERC производятся компанией LSI. В средах Dell одинаковое время работы от батареи?

Литература по продуктам LSI, в которой описывается аккумулятор нового поколения, который может прослужить дольше, чем 1 год. введите описание изображения здесь

Сервер HP ProLiant DL585 G2 с 1000+ дневным временем безотказной работы и счастливой батареей RAID ...

# uptime 
 05:38:08 up 1031 days, 44 min, 31 users,  load average: 0.49, 0.64, 0.99

# hpacucli
   Cache Board Present: True
   Cache Status: OK
   Accelerator Ratio: 50% Read / 50% Write
   Total Cache Size: 512 MB
   Battery Pack Count: 1
   Battery Status: OK
ewwhite
источник
2
Подсказка: в контроллерах Adaptec последнего поколения вместо батарей используются и суперкапсеты / вспышки.
Свен
О, я знаю , что все производители имеют SuperCap на основе решений в настоящее время , но с учетом существующей установкой след, это трудно сделать широкое изменение всей инфраструктуры.
Ewwhite
2
Я никогда не делал этого (вероятно, потому что это звучит как плохая идея, и у меня не было такой проблемы, как у вас), но вы можете попробовать заменить батарею RAID на тестовом сервере, пока он включен. Выдвиньте его, снимите крышку, отсоедините неисправную батарею и подключите хорошую, затем верните ее в стойку ... Если все идет хорошо, у вас есть новый процесс замены батареи, который не включает простоев.
августа
2
@ Август Хм, как идут рискованные процедуры, это звучит довольно высоко в списке "OMG WHERE DID MY DATA GO".
Дан
2
Да, это действительно так ... Я согласен, что это звучит как ужасная идея, но, учитывая ситуацию и требование отсутствия простоев, возможно, стоит попробовать на тестовом сервере (или тридцати тестовых серверах ...), чтобы увидеть, если это так возможно. Что является еще одним вариантом, кроме восстановления инфраструктуры, чтобы не полагаться на отдельные батареи RAID на тысячах серверов?
августа

Ответы:

9

Я подозреваю, что ваши Supermicro сломаны так или иначе - возможно, аккумуляторы перегреваются. Самые последние LSI сообщают о температуре через MegaCLI - вы можете отслеживать это значение на серверах, которые нуждались в замене.

root@host:~/SOLARIS# ./MegaCli -AdpBbuCmd -GetBbuStatus -aALL

BBU status for Adapter: 0

BatteryType: BBU
[...]
Temperature: 41 C

Я видел пару систем Dell и Fujitsu с контроллерами LSI BBU, и ни у одной из них не было ежегодной замены батарейного блока (за исключением случаев, когда вы испортили батарею из-за глубокого разряда). Типичный срок службы составляет от 3 до 5 лет.

заместитель Wabbit
источник
4
Я бы добавил, что если система явно не разрешит горячую замену RAID BBU, я не буду пытаться сделать это. Я никогда не видел, чтобы система требовала ежегодной замены батареи кеша RAID. 3-5 лет - это типичный срок службы.
voretaq7
Я думаю, ты понял!
Ewwhite
1

Средний срок службы батареи должен составлять 3-5 лет. И не забывайте, что FBWC на ​​основе флеш-памяти также дает сбой. Я не знаю почему / как, но мы регулярно заменяли их на наших серверах HP. Я должен работать дольше, чем батарея, но у меня нет статистики с наших отдельных серверов.

Стандартный способ предотвращения последствий неисправной батареи и обучения батареи состоит в том, чтобы иметь несколько батарей. Вот как у него есть хранилище HP (например, HP EVA). У вас есть 2 батареи с «горячей» заменой, и, хотя одна из них разряжена или заменяется, контроллер работает с оставшейся. Я не уверен, возможно ли подключить несколько батарей к SmartArray, но hpacucli diagвывод предполагает, что он должен поддерживаться:

Battery 1 firmware is up to date.
Battery 2 not present.
Battery 3 not present.

Battery Status:    Battery 1      Battery 2      Battery 3
---------------    ---------      ---------      ---------
Present:              YES             NO             NO
Responding:           YES            N/A            N/A
PIC Revision:          52              .              .         
Status:              0x80              .              .         
Extra Status:        0x01              .              .         
   Enabled:         FALSE              .              .         
   Charging:        FALSE              .              .         
   Good:             TRUE              .              .         
   Open:            FALSE              .              .         
   Shorted:         FALSE              .              .         
   Sample Err:      FALSE              .              .         
Control:             0x00              .              .         
Load Current: (0x70) 24.6mA            .              .    
   Per Memory Chip:  4920uA            .              .         
Voltage:      (0xae) 5640mV            .              .         
Capacity:             100%             .              .         
Depletion count:     0x00              .              .         
Marki555
источник
1

Мой опыт работы с версиями IBM платформ LSI после нескольких сотен установок заключается в том, что средняя батарея едва ли составляет 2 года, а суперкап не лучше, некоторые из них можно исправить с помощью обновления прошивки, но у LSI его просто нет. право. У меня было около 75% отказов суперкап в первые 2 года.

отметка
источник