Высокая частота отказов больших дисков?

24

Я недавно развернул сервер с 5x 1 ТБ накопителями (я не буду упоминать их марку, но это был один из двух главных). Сначала меня предупредили, чтобы я не получал диски большой емкости, так как мой друг сказал мне, что у них очень низкий MTBF, и мне лучше получить больше дисков меньшей емкости, так как они не «выдвигаются до предела» с точки зрения того, что технология может справиться.

С тех пор три из пяти дисков вышли из строя. К счастью, мне удалось заменить и перестроить массив до того, как вышел из строя следующий диск, но это меня очень сильно беспокоило.

о чем ты думаешь? Я только что получил их в плохой партии? Или более новые / более емкие диски чаще выходят из строя, чем проверенные и протестированные диски?

Марк Хендерсон
источник
2
Почему ты не упоминаешь марку? Я думаю, что ваша партия была 7200,11 cudas, которые, как известно, имеют тенденцию к ранней смерти.
Дани
На самом деле это были западные дигиталии ...
Марк Хендерсон
Для справки, я забрал их все и получил новые, и они работают уже два месяца без каких-либо проблем.
Марк Хендерсон
У меня был похожий опыт. 16 дисков 1,5 ТБ. За первые 4 месяца 4 тяжело провалились. В следующие три года один мягкий провал.
Дэвид Шварц

Ответы:

19

Вы, вероятно, получили плохую партию. По этой причине я нервничаю по поводу развертывания массивов, созданных из дисков из одной и той же партии, - они, вероятно, имеют одинаковый срок службы, что делает получение замен потенциально очень захватывающим в случае сбоя.

Не исключено, что с приводами есть какой-то конструктивный дефект, который определенно случался раньше; однако, как правило, в Интернете полно жалоб на диск, если с ним действительно что-то не так, в отличие от обычного фонового шума, который вы найдете во всем.

Дэвид Макинтош
источник
6
+1 Попытайтесь либо распределить ваши покупки, исходить от разных продавцов, либо смешать бренды, чтобы облегчить это.
Роб Аллен
Или вы можете смягчить его, «записав» диски, которые получены из одного и того же места в одно и то же время. Запустите на них интенсивную программу записи на несколько часов / дней; ошеломляющие длительности для имитации разрозненного старения. Я создал простую программу под названием DriveTest, которая записывает псевдослучайные данные, затем считывает их обратно и проверяет, чтобы «прожечь» и одновременно выполнить простое тестирование. Этот совет не рекомендуется для твердотельных накопителей.
rkagerer
13

Это сложный вопрос, если у вас нет ресурсов большой организации. Посмотрите исследование Google по поводу отказов жесткого диска .

При значительной покупке дисков я буду определять приблизительный размер диска с наименьшей стоимостью на байт, который обычно на одно поколение старше, чем последний. Это имеет смысл, что они улучшат надежность этого поколения.

Нокс
источник
1
От 1,5 до 2 ТБ сейчас является самым передовым, так что 1 ТБ не будет соответствовать вашим критериям? Они довольно дешевые.
Марк Рэнсом
Очень хороший момент.
Нокс
10

Чем больше тарелок + больше головок, тем выше вероятность неудачи.

Возьмите два распространенных жестких диска WD

640 ГБ = две пластины
1 ТБ = три пластины

    WD Black 640GB vs 1TB comparison

Drive Ready Time 11 sec  13
R/W Power watts  8.3     8.4
Idle Power watts 7.7     7.8
Standby watts    1       1
Max shock        300g    250g
Performance seek 29      33
Quiet seek       26      29

Это дополнительное блюдо = больше шума, больше энергопотребления, больше тепла, меньше время готовности диска, больше подвержены повреждениям от ударов и больше вибрации.

Если бы они сделали один и тот же дизайн диска только с одним блюдом, у него были бы еще лучшие характеристики. В данном случае это накопители потребительского уровня, но это накопители высшего класса с двойным кешем и 5-летней гарантией. Вы увидите похожую математику, если внимательно изучите документацию по любому бренду или стилю традиционного жесткого диска (вращающиеся тарелки). Это чисто физический вопрос: чем больше пластин делает привод менее надежным.

Джефф Хенгесбах тоже был прав, когда сказал

Основная проблема с «большими» дисками - это время восстановления при сбое. Чем больше диск, тем дольше перестройка, тем больше окно для отказа дополнительного диска и потенциальной потери массива. При использовании «больших» дисков ценность доступности для бизнеса должна определять уровень приемлемого риска (потеря массива), который будет определять выбор уровня RAID и количество дисков (чем больше дисков, тем больше вероятность сбоя диска).

добавить в небольшую дозу Грэм Перроу

Привод с пятьдесят миллионами секторов имеет в десять раз больше шансов получить плохой сектор, чем накопитель с пятью миллионами секторов. Я предполагаю, что частота отказов больших дисков и маленьких дисков здесь одинакова, что, вероятно, не является хорошим предположением

Больше тарелок = плохо
Больше места для хранения - смешанная сумка. Плюсы и минусы на этом многочисленны.
Чем больше секторов, тем больше шансов на ошибки. Не обязательно линейный масштаб, но определенно фактор.

Если вам не нужно больше места, чем надежность, я бы предложил придерживаться дисков с одним или двумя дисками. Требуются исследования и в некоторых случаях удача, чтобы узнать, что вы получите при заказе дисков, поскольку некоторые производители не только избегают публикации количества пластин, которые они могут продать более чем одного диска под одним и тем же номером детали.

Возьмем, к примеру, WD3200AAKS: версия с одним диском 320 ГБ и версия с двумя дисками 320 ГБ (160 ГБ х 2). Кроме того, используются несколько этикеток и корпусов накопителей, поэтому вы не можете легко посмотреть на накопитель и узнать, какое блюдо находится внутри. Единственный способ узнать, это поиск в Интернете, чтобы узнать, что WD3200AAKS-00B3A0 и WD3200AAKS-75VYA0 сообщают вам, какой тарелка однократная, но ни один продавец не скажет вам, что вы получите.

pplrppl
источник
1
Вау. Это некоторые глубокие вещи! Благодарность! Я даже не учел количество движущихся частей (пластин) до сих пор.
Марк Хендерсон
3

Я считаю, что более высокий, чем обычно, показатель отказов является показателем любой новой технологии. Мне всегда говорили никогда не покупать первый модельный год автомобиля, подожди, пока они исправят ошибки. Я бы сказал, что то же самое, вероятно, относится ко многим другим вещам, включая жесткие диски.

логан
источник
1
Я могу засвидетельствовать всю автомобильную аналогию (автомобильные аналогии никогда не сбиваются с пути, не так ли?). Я признаю, что был в спешке и не исследовал это вообще должным образом, и я плачу сейчас!
Марк Хендерсон
3

Я не уверен, что будет справедливо сказать, что «большие» диски имеют более высокий MTBF или нет. У меня есть система громких имен с несколькими накопителями емкостью 750 ГБ, и за последние 2 с лишним года ни одна из них не вышла из строя (750 была "большой" 2 года назад). Но я также знаю систему больших имен, которая была создана, когда 250 ГБ были большими, и этот массив несколько раз падал. Обсуждение MTBF - это что-то вроде священной войны.

Основная проблема с «большими» дисками - это время восстановления при сбое. Чем больше диск, тем дольше перестройка, тем больше окно для отказа дополнительного диска и потенциальной потери массива. При использовании «больших» дисков ценность доступности для бизнеса должна определять уровень приемлемого риска (потеря массива), который будет определять выбор уровня RAID и количество дисков (чем больше дисков, тем больше вероятность сбоя диска).

Бизнес SATA / RAID проделал большой путь в последние несколько лет. Я не думаю, что громкие имена предложили бы это, если бы знали, что это будет серьезной проблемой поддержки или источником разочарования клиентов. Мне было бы любопытно узнать вашу надежность в будущем, когда вы заменили некоторые оригинальные партии.

Джефф Хенгесбах
источник
1

Они все на одном компьютере или контроллере диска? Вы сказали, что должны были восстановить массив. Если это так, то, возможно, что-то не так с контроллером, источником питания или памятью . Если нет, то я бы также угадал неисправную партию дисков. Кроме того, может быть проблема совместимости с какими-либо конкретными дисками, которые вы используете с этим конкретным контроллером.

Кроме того, мне интересно, когда люди говорят, что большие диски имеют более высокий MTBF, как это рассчитывается. Допустим, у вас есть 2x250 ГБ и 1x500 ГБ дисков. Может быть, это наивно, но разве на диске, который содержит в два раза больше данных, может произойти сбой? Думаю, я не знаю, содержит ли MTBF какие-либо неверные или неправильные записи, или это означает, что диск становится механически поврежденным. Кто-нибудь знает, существует ли строгий отраслевой стандарт и определение MTBF для жестких дисков?

Кайл Брандт
источник
1

Вот несколько вещей, которые я бы проверил: 1) Серийные номера на дисках довольно близки? Если это так, у вас может быть неисправная партия 2) Какова среда, в которой живет ваш сервер? Были ли у вас проблемы с отказом другого оборудования в последнее время? 3) Диски являются приводами Seagate Barracuda? Есть проблемы с этими дисками. Смотрите эту статью о компьютерном мире . 4) Эти диски были частью системы? или ты их купил сам? Если вы купили OEM-диски, вы не сможете обеспечить их бережное обращение с ними до их покупки.

Мне лично невероятно повезло с жесткими дисками. У меня только два диска не удалось на меня. Только один из этих сбоев был на диске, который я фактически использовал. Однако повсюду вокруг меня я видел, как многие люди теряли данные на жестких дисках.

cyberkni
источник
Хм, да, они все очень близки, но они были WD, а не Seagates, и да, они были OEM-накопителями ... несколько вещей, которые я там не рассматривал ...
Марк Хендерсон
1

Более высокая частота отказов больших дисков может зависеть от размера дисков. Привод с пятьдесят миллионами секторов имеет в десять раз больше шансов получить плохой сектор, чем накопитель с пятью миллионами секторов. Я предполагаю, что частота отказов больших дисков и маленьких дисков здесь одинакова, что, вероятно, не является хорошим предположением - как кто-то сказал, тот факт, что терабайтные диски все еще относительно новые, у них, вероятно, более высокая частота отказов до начинать с.

В вашем случае это звучит как плохая партия дисков.

Грэм Перроу
источник
1

Если вы купили все диски в одно и то же время в одном месте, возможно, все они поступили из одной ненадежной партии.

При сборке RAID-массива я обычно рекомендую немного смешивать диски, т.е. смесь производителей или, по крайней мере, дисков разных поставщиков (чтобы снизить риск того, что все диски будут из одной плохой партии).

Другая рекомендация, которую я хотел бы сделать, - это по возможности использовать диски меньшего размера (т. Е. У вас есть физическое пространство для дисков и портов контроллера, чтобы их можно было повесить), поэтому вместо тома RAID 1 или двух дисков емкостью 1 ТБ используется RAID 10 из четырех блоков по 500 Гб. Таким образом, когда диск выходит из строя, вы только перестраиваете меньший массив, который является частью большего массива, а не перестраивает весь массив (сокращая время, в течение которого массив не завершен), и это также предлагает немного большую избыточность (в четырех из шести сценариев «сбой двух дисков одновременно» будет работать массив RAID10 с 4 дисками). Вы можете сделать то же самое с объединением меньших массивов R5 в массив R50, если это поддерживается вашим контроллером / программным обеспечением RAID.

Может быть, я слишком параноик, но я бы с осторожностью доверял 1 ТБ данных одному диску, даже если этот диск является частью избыточного массива.

Очевидно, что в игре есть физические ограничения, которые могут сделать эту технику непрактичной для вас, ограничения мощности также ограничены, поэтому YMMV. В качестве «например , » когда массив или массивы не практично: Я предпочел бы иметь четыре диска , как R10 в одном из наших серверов здесь вместо больших дисков в массиве R1, но физически не хватило места покупка / сборка внешнего массива была вне бюджета, и мы не могли использовать пространство в существующем массиве, поскольку данные должны были физически отделяться от всех других данных из-за требований защиты данных.

Дэвид Спиллетт
источник
1

Кто-то очень подробно изучил эту проблему с большими дисками. Это связано с тем, что частота ошибок по битам остается постоянной, даже несмотря на то, что размер диска увеличился, а также больше времени, необходимого для восстановления дисков большего размера. Они объединяются, чтобы поместить 2-ой сбой во время перестройки в реальность. Я бы пошел с дисками 500 ГБ или меньше на RAID-массивах.

bobcov
источник
1

Всегда используйте жесткие диски меньшей емкости для производственного использования. Никогда не проверял физику, стоящую за этим, но меньшие диски просто имеют тенденцию ломаться реже. Это то, что все всегда говорили мне.

Alakdae
источник
0

Вы создали массив с дисками из одной партии и все от одного поставщика? Мне сказали, что это плохо ...

Тайс
источник
0

Рассмотрим RAID-6. Вероятность ошибки жесткого чтения при реконструкции RAID-5 вполне реальна. Или RAID-Z с ZFS.

Брайан Карлтон
источник