Что считается «большим» массивом raid 5?

11

Недавняя проблема с сетевым хранилищем Buffalo TeraStation здесь, в моем офисе, заставила меня исследовать Raid 5.

Я нашел несколько разных статей о неприемлемости использования raid 5 в больших массивах или на больших дисках.

Вот одна примерная статья, в которой говорится о проблемах с перестройкой массива с большими потребительскими дисками.

Я пытаюсь понять, что считать «большим»?

У нас есть NAS-накопитель Raid 5 с 4 накопителями, каждый диск по 1 ТБ. Диск вышел из строя и был заменен, массив в настоящее время перестраивается.

Является ли эта установка настолько большой, что, скорее всего, возникнет проблема при перестройке?

Насколько надежна эта установка для повседневного использования?

обкрадывать
источник
2
Принимая во внимание вашу обычную загрузку системы, сколько времени контроллер ожидает, что восстановление займет? Что такое MTBF жестких дисков? Если у вас есть эти два числа, вы знаете вероятность второго - и катастрофического - отказа во время перестройки RAID. Имейте в виду, что жесткие диски наиболее подвержены нагрузке во время восстановления, поэтому приведенный выше результат будет недооценивать вероятность двойного отказа.
MadHatter
3
Кроме того, вы знаете, что RAID не резервное копирование, верно?
cjc
5
@cjc, добавляете ли вы эту жемчужину мудрости к каждому вопросу о RAID на SF, или что-то из этого заставляет вас думать, что OP считает RAID резервной копией?
BlueCompute
Да, я знаю об этом. Все это зарезервировано, я просто хочу, чтобы вам пришлось все это восстанавливать, потому что массив raid не восстанавливал себя должным образом.
Роб

Ответы:

18

Проектирование надежности дискового массива:

  1. Найдите URE Rate вашего накопителя (производители не любят говорить о сбоях их накопителей, поэтому вам, возможно, придется покопаться, чтобы найти это. Это должно быть 1/10 ^ X, где X обычно около 12-18).
  2. Решите, какой уровень риска является приемлемым для ваших потребностей хранения †. Обычно это <0,5% вероятности отказа, но может составлять несколько процентов в «чистом» хранилище и может быть <0,1 для критических данных.
  3. 1 - ( 1 - [Drive Size] x [URE Rate]) ^ [Data Drives‡] = [Risk]
    Для массивов с более чем одним диском контроля четности или зеркал с более чем двумя дисками в зеркале измените число 1после дисков в массиве на количество дисков с контролем четности / зеркалом.

Итак, у меня есть четыре накопителя WD Green емкостью 1 ТБ в массиве. У них коэффициент URE 1/10 ^ 14. И я использую их в качестве скретч-хранилища. 1 - (1 - 1TB x 1/10^14byte) ^ 3=> 3.3%риск сбоя при восстановлении массива после смерти одного диска. Они отлично подходят для хранения моего барахла, но я не помещаю туда важные данные.

† Определение приемлемого сбоя - длительный и сложный процесс. Это можно резюмировать как Budget = Risk * Cost. Таким образом, если сбой обойдется в 100 долларов, а вероятность его возникновения составляет 10%, то для его предотвращения у вас должен быть бюджет в 10 долларов. Это значительно упрощает задачу определения риска, стоимости различных сбоев и характера возможных методов предотвращения - но вы поняли идею. [Data Drives] = [Total Drives] - [Parity Drives]. Зеркало с двумя дисками (RAID1) и RAID5 имеет 1 диск четности. Зеркало с тремя дисками (RAID1) и RAID6 имеет 2 диска четности. Возможно иметь больше дисков четности с RAID1 и / или пользовательскими схемами, но нетипично.


Это статистическое уравнение идет с его оговорками:

  • Этот показатель URE является объявленным уровнем и обычно лучше в большинстве дисков, сходящих с конвейера. Возможно, вам повезет и вы получите диск, который на несколько порядков лучше, чем рекламируется. Точно так же вы можете получить двигатель, который умирает от детской смертности.
  • Некоторые производственные линии имеют плохие прогоны (когда многие диски в процессе работы выходят из строя одновременно), поэтому получение дисков из разных производственных партий помогает распределить вероятность одновременного отказа.
  • Старые диски с большей вероятностью погибают от стресса восстановления.
  • Экологические факторы оказывают негативное влияние:
    • Диски, которые подвергаются циклическому нагреванию, чаще всего погибают (например, регулярно их включают / выключают).
    • Вибрация может вызывать всевозможные проблемы - смотрите видео на YouTube, где ИТ-специалисты кричат ​​на дисковый массив .
  • «Есть три вида лжи: ложь, проклятая ложь и статистика» - Бенджамин Дизраэли
Крис С
источник
Диск, который я вынул / вынул / из устройства, является накопителем Samsung HD103SI 1 ТБ. Я считаю, что остальные три оставшихся диска одинаковы. Запасной диск другого производителя, у меня нет подробностей.
Роб
Похоже, что скорость для этого диска составляет 1/10
Роб
1
Я просто исправил уравнения, пример был верным, теперь они оба верны. Ваш массив будет 1-(1-1099511627776*0.000000000000001)^3=> 0,00329. У вас есть кронштейн снаружи того места, ^3где он должен быть внутри; и в этой 1/10 ^ 15 должна быть еще одна ноль.
Крис С
2
Диск емкостью 1 ТБ будет иметь размер 1000000000000 байт, поэтому он работает чуть менее 3% | 0,3% в зависимости от вашей скорости URE.
user9517
1
@IanRingrose Это статистически достоверно. Я уже рассмотрел ваши конкретные проблемы. У вас есть что добавить, кроме того, что уже было сказано?
Крис С
9

Причина, по которой эта статья существует, заключается в том, чтобы привлечь внимание к неустранимым показателям ошибок по битам на жестких дисках. В частности, ваши дешевые диски для «домашнего ПК». Обычно они имеют заводскую спецификацию 1/10 ^ 14. Это около 12,5 ТБ данных, которые, если вы делаете RAID-5 с дисками 2 ТБ ... вы получаете довольно быстро.

Это означает, что вы должны либо:

  • используйте меньшие группы RAID и принимайте больше потраченного впустую пространства.
  • Используйте RAID-6 и примите дополнительный штраф записи. (На 50% выше, чем у RAID5)
  • Покупайте более дорогие диски - «класс сервера» имеет спецификацию UBER 1/10 ^ 16, что означает, что это спорный вопрос. (1.2PB лучше, чем 12.5TB)

Я бы предположил, что обычно RAID-6 - это путь вперед, но он будет стоить вам производительности.

Sobrique
источник