Должен ли я «запустить» один диск новой пары RAID 1, чтобы уменьшить вероятность подобного времени отказа?

19

Я устанавливаю массив RAID1 из двух новых жестких дисков по 4 ТБ.

Ранее я слышал, что создание массива RAID1 из новых идентичных жестких дисков, купленных в одно и то же время, повышает вероятность их отказа в тот же момент времени.

Поэтому я рассматриваю возможность использования одного из жестких дисков в течение некоторого периода времени (возможно, пары недель) в попытке уменьшить вероятность сбоя обоих в течение короткого промежутка времени. (неиспользуемый диск будет отключен в ящике)

Кажется ли это разумным подходом, или я, скорее всего, просто трачу свое время?

a_henderson
источник
2
Это часто слышимое заявление, но я еще не видел какой-либо документации, подтверждающей это. Гораздо более реальный риск заключается в том, что на одном из ваших дисков могут образоваться поврежденные сектора, которые какое-то время остаются незамеченными. Но как только другой диск выйдет из строя, вы заметите эти поврежденные сектора во время восстановления.
Касперд
8
Если вы работали с десятками дисков, возможно, стоит подумать об источнике из нескольких партий. Для двухдискового комплекта это не стоит того, чтобы делать это. Процент отказов просто не такой схожий или предсказуемый ... один может длиться 3 месяца, другой может длиться 5 лет.
jlehtinen
Лично я не стал бы совершать набеги только с двумя двигателями. Использование большего количества дисков дает лучшую емкость. Например, 3 диска дадут 8 ТБ общего объема памяти, в отличие от 2 дисков, что дает только 4 ТБ. Любой один диск может выйти из строя в наборе из трех, и если они поступают из трех источников, вероятность отказа в то же время невелика.
phyrfox
3
@phyrfox - RAID-5 (и -6) имеют характеристики производительности, отличные от RAID-1, которые могут быть несовместимы с его приложением. На больших дисках (особенно на потребительских дисках), если бы я собирался использовать более высокие уровни RAID, я бы определенно использовал RAID-6 для защиты от второго сбоя диска при восстановлении массива после сбоя одного диска. Я использую 5-дисковый массив RAID-6 в течение 2 лет, используя набор дисков, купленных одновременно - один диск вышел из строя месяц назад, все остальные не показали никаких проблем.
Джонни
1
@phyrfox RAID5 снизит стоимость за мегабайт, но на самом деле увеличит вероятность сбоя, поскольку существует больше дисков для сбоя.
Caltor

Ответы:

16

Это пустая трата времени.

Вы не сможете вызвать сбой или значительную нагрузку на диски. У вас есть RAID, и это хорошее начало. Просто убедитесь, что у вас есть мониторинг для фактического обнаружения сбоев по мере их возникновения и резервных копий для защиты от аварии.

ewwhite
источник
2
Согласитесь для обычного HDS, но для ssds это совсем другая история. Подумал, что это стоит отметить, прежде чем 4 ТБ ssds станут дешевыми и доступными, и читатели не осознают, что мы говорим о прядении ржавчины, но, возможно, к тому времени они будут обрабатывать больше записей.
Symcbean
3
Да, конечно, любой «корпоративный» накопитель уже прошел испытания на пропитку, чтобы в любом случае преодолеть ранние отказы на кривой ванны. Хотя я знаю, что если вы купите пару генераторов, советую чередовать от 66% до 33%, потому что таким образом они оба не изнашиваются одновременно. С накопителями, однако, MTBF имеет довольно большое стандартное отклонение, так что это гораздо меньше проблем.
Собрике
5

Может быть, лучше использовать диски разных марок или серии вместе, если вы беспокоитесь об этом.

Я уже видел диски подобного типа и возраста терпят неудачу в кластерах, поэтому ИМХО это не городской leend.

wurtel
источник
1
У меня тоже есть, но дело было в хитрой прошивке, а не в чем-то связанном с MTBF.
Sobrique
2

Отличный вопрос - Однако, в отличие от автомобильных фар, это пустая трата времени. MTBF [среднее время наработки на отказ] для накопителей емкостью 4 ГБ [WD Red в этом примере] составляет 1 000 000 часов. Вероятность того, что два диска в зеркале испортятся одновременно, крайне редка. Когда я видел, как это произошло, это произошло потому, что первый диск вышел из строя, и никто не заметил. Более полезно защищать резервными копиями, чем сначала записывать один диск. Если вы смешиваете типы дисков, убедитесь, что диски имеют одинаковую скорость. Если вы параноик, тогда RAID 10 для вас.

DocB
источник
MTBF предполагает, что диски независимы, и они не находятся в одном наборе RAID. Есть и другие причины, по которым это пустая трата времени, но нелепая цифра, выпущенная производителем, имеющая слабую связь с реальностью, не является одной из них.
HopelessN00b
5
Если на жестком диске действительно было заявленное среднее время наработки на отказ, то почему гарантийные сроки такие короткие? 1M часов - это 114 лет, дай или возьми. WD Red Pro (потому что я выбрал одну из множества), похоже, имеет пятилетнюю гарантию. Даже если вы потратите половину среднего времени до отказа, Western Digital по-прежнему не верит, что он будет надежным в течение более чем одной десятой указанного периода MTBF. Теперь, чему бы вы были более склонны верить; какая-то случайная статистика без обязательств или где деньги на самом деле? (Гарантийные возвраты, возвраты, возвраты и замены стоят реальных денег.)
CVn
1
@ MichaelKjörling: Если бы они гарантировали MTBF, они заменили бы более 50% (да, слишком длинный хвост при распределении) приводов по гарантии. Конечно, вы должны посмотреть, где деньги, но я не вижу причин полагать, что MTBF не на порядок дольше, чем гарантия, и некоторые считают, что это так.
Бен Фойгт
@ MichaelKjörling Я видел аппаратное обеспечение с опубликованным значением MTBF 100 тыс. Часов, которое постоянно изнашивается после 1 тыс. Часов работы. У следующего поколения аппаратных средств был опубликованный MTBF 200 000 часов. Когда первая партия нового оборудования работала в течение 48 часов, более 50% из них вышли из строя.
Касперд
1

Хотя это имеет смысл в теории, данные не поддерживают потребность в work inвашем диске.
Мало того, что несколько недель не окажут существенного влияния, процент отказов действительно не работает, если рассматривать только два диска.

Хотя есть некоторые признаки более нормализованной частоты отказов, когда речь идет о дисках той же модели.

На большинство возрастных результатов влияют винтажные накопители ... Интересно, что это не меняет наших выводов. В отличие от возрастных результатов, мы отмечаем, что на все результаты, показанные в остальной части статьи, существенное влияние не оказывает состав населения. (акцент мой)

Таким образом, связанные с возрастом сбои, которые являются лишь небольшим подмножеством сбоев, могут быть несколько коррелированы с винтажами дисков. Но большинство неудач не может.
Если добавить к этому общий процент отказов, который может достигать пика в 8% для данного года, шансы обоих дисков, выходящих из строя в одном и том же году, невелики, их отказ в одну и ту же неделю незначителен.
И это если вы посмотрите на все возможные причины сбоев, а не только на возрастные сбои.

Если вы хотите минимизировать риск, но два диска другого винтажа.
Если вам нужны гарантии, купите страховку.
И, как уже отмечалось в ответе ewwhite , резервное копирование и мониторинг являются обязательными.

Reaces
источник
0

По моему опыту, это обычно аргумент для SSD больше, чем для HDD. Твердотельные накопители имеют ограниченные циклы записи, поэтому, если вы используете RAID1 с двумя твердотельными накопителями одной и той же модели, у обоих должны закончиться циклы записи примерно в одно и то же время.

Что касается общих отказов, если у вас нет серьезных проблем, таких как массовая вибрация, статическое электричество или высокая температура; Я не подозреваю, что вы увидите, что 2 из 2 дисков выйдут из строя одновременно.

Основной проблемой RAID1 (и RAID10) с более крупными дисками, такими как 4 ТБ, является восстановление. С зеркалом с двумя дисками, когда один диск выходит из строя, другой диск в два раза превышает рабочую нагрузку. Затем, когда вы перестраиваете, этот диск становится еще более загруженным. Если с этим диском что-то не так, он, скорее всего, выйдет из строя в таких условиях, особенно учитывая, что восстановление зеркала объемом 4 ТБ может занять много времени.

Девон
источник
0

Вы можете сделать, но это не поможет слишком много.

Например, если во входной мощности есть игла, та же самая игла убьет оба диска.

Что важно: у вас должна быть хорошая резервная копия. Рейд не восполняет хорошую резервную копию. На самом деле, если у вас есть хорошая резервная копия, возможно, рейд на зеркалирование не нужен (если вы можете терпеть крах системы раз в 2-3 года).

Петер - Восстановить Монику
источник
3
RAID - это доступность, а не резервное копирование данных. Суть в том, чтобы система оставалась доступной в случае отказа диска, а не для защиты данных на диске.
HopelessN00b
@ HopelessN00b Это именно то, что я пытался объяснить в ответе, может быть, я не был достаточно ясен?
Петер - Восстановить Монику
Ваше предложение в конце там мутит воду.
HopelessN00b
@ HopelessN00b Raid также защищает от потери данных, вызванной сбоями диска. Это часто приводит к ложному выводу, что он может быть использован в качестве резервной копии. Но, используя рейд и резервные копии, это зависит от ситуации. Есть случаи, когда даже профессиональная среда sysadm не нуждается в них обоих. На мой взгляд, цель не заставить как неопытному SYSADM, но чтобы сделать его ясно, что зеркальное отображение дисков и резервное копирование своих данных различные решения для различных задач.
Петер - Восстановить Монику