Лучше ли покупать диски RAID отдельно или оптом?

96

Это может звучать странно, но это вызвало оживленную дискуссию с некоторыми из моих коллег. Рассмотрим RAID-массив умеренного размера, состоящий из восьми или двенадцати дисков. При покупке первоначальной партии дисков или при покупке замен для увеличения массива или обновления аппаратного обеспечения можно использовать два основных подхода:

  1. Купите все диски в одном заказе у одного поставщика и получите одну большую коробку со всеми дисками.
  2. Закажите один диск у разных поставщиков и / или распределите (в течение нескольких дней или недель) несколько заказов на один диск.

Очевидно, что есть некоторая середина, но это основные противоположные установки. Мне было искренне любопытно, какой подход является более разумным с точки зрения снижения риска катастрофического отказа массива. (Давайте определим, что «25% дисков выходят из строя в пределах временного окна, равного тому, сколько времени требуется для повторного преобразования массива за один раз».) основные дефекты, ожидающие удара. Та же бомба замедленного действия с тем же начальным отсчетом времени на часах, если хотите.

Я собрал несколько наиболее распространенных плюсов и минусов для каждого подхода, но некоторые из них чувствуют себя как догадки и инстинкт инстинкта, а не точные данные, основанные на фактах.

Купить все сразу, плюсы

  • Меньше времени, затрачиваемого на исследования / заказ.
  • Минимизирует стоимость доставки, если поставщик взимает за нее плату.
  • Диски гарантированно имеют одинаковую версию прошивки и одинаковые «причуды» по своим эксплуатационным характеристикам (температура, вибрация и т. Д.)
  • Повышение цен / нехватка запасов вряд ли остановят проект на полпути.
  • Каждый следующий диск находится под рукой в ​​тот момент, когда он должен быть установлен.
  • Серийные номера известны заранее, диски могут быть установлены в корпусе в порядке увеличения серийного номера. Кажется чрезмерно суетливым, но некоторые люди, кажется, ценят это. (Я полагаю, что их интерфейс управления сортирует диски по серийному номеру, а не по порядку аппаратного порта ...?)

Купить все сразу, минусы

  • Все диски (вероятно) принадлежали одной и той же фабрике, изготовленной в одно и то же время из одних и тех же материалов. Они хранились в одной среде и подвергались таким же потенциальным злоупотреблениям во время транспортировки. Любой дефект или повреждение, присутствующее в одном, вероятно, присутствует во всех.
  • Если поочередно заменять диски в существующий массив, и каждый новый диск необходимо восстанавливать отдельно, возможно, пройдет несколько недель, прежде чем последний диск из заказа будет установлен и обнаружен как неисправный. Окно возврата / замены с поставщиком может истечь в течение этого времени.
  • Не может воспользоваться снижением цены в ближайшем будущем, которое может произойти во время проекта.

Купить индивидуально, плюсы

  • Если один диск выходит из строя, он разделяет очень мало истории производства / транзита с любым другим диском. Если сбой был вызван чем-то в процессе производства или транспортировки, основная причина, вероятно, не возникла ни на одном другом диске.
  • Если диск не работает по прибытии или выходит из строя в течение первых часов использования, это будет обнаружено вскоре после прибытия посылки, и процесс возврата может пройти более гладко.

Купить индивидуально, минусы

  • Требуется значительное количество времени, чтобы найти достаточно продавцов с приемлемыми ценами. Отслеживание заказа, сбой доставки, возврат поврежденного товара и другие проблемы могут занимать много времени.
  • Потенциально более высокая стоимость доставки.
  • Существует очень реальная возможность того, что потребуется новый диск, но ни один не будет под рукой, что приведет к остановке проекта.
  • Воображаемая выгода. Независимо от продавца или даты покупки все диски были из одного и того же места и в действительности одинаковы. Производственные дефекты были бы обнаружены контролем качества, и некачественные диски не были бы проданы. Повреждение при транспортировке должно быть настолько вопиющим (и ясно видимым невооруженным глазом), что поврежденные диски будут очевидны при распаковке.

Если мы пойдем просто по количеству пулевых точек, «купить оптом» выигрывает довольно четко. Но некоторые плюсы слабые, а некоторые минусы сильные. Многие из пунктов маркированного списка просто указывают на логическую противоположность некоторых других. Некоторые из этих вещей могут быть абсурдным суеверием. Но если суеверие лучше справляется с поддержанием целостности массива, я думаю, я бы согласился с этим.

Какая группа здесь наиболее чувствительна?

ОБНОВЛЕНИЕ: у меня есть данные, относящиеся к этой дискуссии. Последний массив, который я лично создал (около четырех лет назад), имел восемь дисков. Я заказал у одного поставщика, но разделил покупку на два заказа по четыре диска каждый с интервалом примерно в один месяц. Один диск массива вышел из строя в течение первых часов работы. Это было из первой партии, и окно возврата для этого ордера было закрыто за время, необходимое для раскрутки всего.

Четыре года спустя семь оригинальных дисков плюс одна замена по-прежнему работают без ошибок. (стучать по дереву.)

smitelli
источник
6
+1 от меня за вопрос, потому что я сам хотел это знать некоторое время. Я определенно видел феномен того, что жесткие диски больших файловых серверов подходят к концу кривой ванны примерно в одно и то же время, но часто число одобренных поставщиков таких серверов довольно мало, поэтому подход «покупай много мест» довольно жесткий. Я с нетерпением жду ответов с реальными данными в них.
MadHatter
2
Число рейнольдса Ваше обновление: это одна точка данных. Повторите это для тысяч дисков, чтобы получить любую полезную метрику. Это трудно сделать, особенно с короткими циклами производства дисков, что приводит к нехватке данных такого типа.
Свен
1
Кажется, я вспоминаю, как в мета-времени я согласился с тем, что вопросы передового опыта были тематическими, при условии, что они не просто генерировали кучу анекданных. Я надеюсь, что на этот вопрос найдутся отличные ответы, и я думаю, что мы должны дать ему шанс.
MadHatter
3
@ Спасибо, ты джентльмен; здесь надеемся И любым потенциальным ответчикам: данные, а не анекдоты, пожалуйста .
MadHatter
2
Я управляю многими машинами с рейдами. Все диски в конечном итоге выходят из строя, поэтому просто имейте под рукой достаточно запасных частей, чтобы вы могли поменять их при ближайшем уведомлении, скорее всего, перед отказом, а не в ожидании полного отказа.
Кригги

Ответы:

56

На практике люди, которые покупают у корпоративных поставщиков (HPE, Dell и т. Д.) , Не беспокоятся об этом .

Диски, поставляемые этими поставщиками, уже распределены по нескольким производителям под одним и тем же номером детали.

Диск HP под конкретным SKU может быть HGST или Seagate или Western Digital.

Тот же номер детали HP, изменение производителя, номера партии и прошивки введите описание изображения здесь

Вы не должны пытаться перехитрить / перехитрить вероятность сбоя пакета, однако. Вы можете попробовать, если это дает душевное спокойствие, но это может не стоить усилий.

Надлежащие практики, такие как кластеризация, репликация и надежное резервное копирование, являются реальной защитой для пакетных сбоев. Добавьте горячие и холодные запчасти. Внимательно следите за своими системами. Воспользуйтесь умными файловыми системами, такими как ZFS :)

И помните, поломки жесткого диска не всегда механические ...

ewwhite
источник
13
Тем не менее, аспект хранения / доставки все еще в игре. Если кто-либо из склада HP или FedEx уронит коробку с дисками, это может повлиять на всю полученную партию.
Смителли
6
@ Смителли Хорошо. Резервные копии, RAID, репликация, DR, запчасти. Вероятность того, что все ваши диски выйдут из строя одновременно, достаточно мала, поэтому это не та проблема, с которой большинству следует подготовиться.
ewwhite
3
Что-то, о чем следует знать, я купил в Amazon Amazon 5 дисков архивов потребительского уровня для SW RAID-бокса за один раз. Первый провалился через 48 месяцев. Второе, 53 месяца. Третий и четвертый потерпели неудачу в течение двухнедельного промежутка в месяце 55, а последний провалился через 57 месяцев. К счастью, я использовал 3-стороннюю избыточность, но все же ... не то, что я ожидал. Я не знаю, были ли сериалы последовательными, но сами диски были практически идентичны.
MooseBoys
3
@ewwhite Да, но если вы заказываете 10 одинаковых SKU за один раз, они с меньшей вероятностью будут от нескольких поставщиков, чем если бы вы заказывали их по 1 в месяц. Это то, что я делаю.
Кайтар
2
Этот ответ кажется немного самоуверенным и не дает никаких аргументов в пользу того, почему он может быть правдой ... Вы говорили со всеми заказчиками Dell? Что «умного» в перехвате ошибок при обработке пакетов? Действительно ли хорошо, что люди делают то, что, как вы предполагаете, они делают?
AnoE
43

Из уважения к ответу от ewwhite некоторые сисадмины делают заказ в партиях. Я бы никогда сам не заказывал диски в индивидуальном порядке, но стандартными операциями на последнем месте, где я работал в таком качестве, был заказ дисков в пакетном режиме. Для машины с двенадцатью дисководами SOP предписал разделить диски на три партии, предоставив машине трехуровневый профиль резервирования.

Тем не менее, другие мелкие наряды, с которыми я консультировался, следовали различным протоколам, некоторые не имели отношения к партии, а другие разделяли партии на два или четыре массива. Короткий ответ: делай то, что тебе кажется подходящим для того уровня сервиса, который тебе нужен.

Примечание: последнее место, где я работал, конечно, делал правильные вещи. Машина хранения приложений решила выйти из строя на целую партию дисков, и мы обнаружили, что у этой конкретной партии была одна и та же ошибка. Если бы мы не следовали протоколу партии, мы бы понесли катастрофическую потерю данных.

Волчий
источник
7
Я хотел бы сделать эту заметку заранее!
Нечетное
38

Честный ответ от человека, который потратил много времени на умирающие рейдовые массивы и сложные диски: не берите все свои диски из одной партии, если вы можете избежать этого.

Мой опыт применим только к вращающимся дискам, у SSD есть свои проблемы и преимущества, которые следует учитывать при массовом заказе.

Точно лучший способ справиться с ситуацией зависит главным образом от размера массива, с которым вы работаете: если вы работаете с чем-то вроде 6 дисковых массивов с избыточностью 2 дисков, вы, вероятно, можете безопасно купить аналогичные диски от 3 производителей и разделить массив как это.

Если вы используете нечетный диск или работаете с массивами, которые не могут быть легко разделены таким образом, вы можете попробовать другие подходы, такие как покупка одного и того же диска у разных поставщиков, или если вы покупаете оптом, вы можете просмотреть и попробуйте разделить диски на основе вероятности их совместного производства.

Если вы используете достаточно маленький массив с правильной базовой технологией, возможно, вам даже стоит потратить время на его постепенное создание из разнородных дисков. Начните с минимального количества дисков, с которым вы можете сойти с рук, и купите следующий запас через месяц или два или при заполнении системы. Это также позволит вам почувствовать любые проблемы, которые могут возникнуть с выбранными вами моделями.

Причиной этого совета является комбинация двух особенностей дисков.

  1. MTBF заметно ломается, когда у вас много дисков с аналогичным происхождением. В статистике мы бы назвали это смещением выборки, поскольку из-за сходства в ваших выборках эффекты усреднения будут менее полезными. Если есть ошибка в пакете или даже в самом дизайне, и это происходит чаще, чем вы думаете, то диски из этого пакета выйдут из строя раньше, чем предполагает MTBF.

    Если диски разложены, вы можете получить [50%, 90%, 120%, 200%] MTBF, но если все диски поступят из этой 50% -ной партии, у вас будет беспорядок.

  2. Повторная сборка RAID-массива убивает диски. Нет, правда. Если вы получаете сбой диска и массив перестраивается, он будет создавать дополнительную нагрузку на другие диски, пока сканирует данные с них. Если у вас есть диск, близкий к сбоям, восстановление может удалить его или уже может иметь место сбоя, о котором вы просто не знали, потому что этот раздел не был недавно прочитан.

    Если у вас много накопителей из одной и той же партии, вероятность такого каскадного сбоя гораздо выше, чем вероятность, если они разные. Вы можете смягчить это, проводя регулярное патрулирование, скрабы, повторное переключение, независимо от рекомендуемой практики для типа используемого массива, но недостатком этого является то, что это повлияет на производительность и может занять несколько часов.

Для некоторого контекста о том, насколько сильно зависит долговечность накопителей, Backblaze регулярно публикует статистический отчет о неисправностях накопителей ... Я никак не связан с компанией, но они должны знать, о чем говорят на тему надежности накопителей. , Примером является https://www.backblaze.com/blog/hard-drive-failure-rates-q1-2017/ ... ваш выборочный набор, вероятно, будет меньше, поэтому внешние данные могут испортить ваш собственный опыт хорошая ссылка.

Kaithar
источник
2
это должен быть принятый ответ. рейды с похожими (взятыми из одной и той же прошивки / партии, или купленными вместе и неправильно обработанными в некоторый момент) диски имеют гораздо более высокий риск катастрофического сбоя
Оливье Дюлак
@OlivierDulac, и если на диске произошел катастрофический сбой дизайна, ваша жизнь становится по-настоящему болезненной. 2,5-дюймовые накопители WD Raptor 300 ГБ / 600 ГБ / 900 ГБ имели / имели частоту отказов, которую нужно испытать, чтобы в
нее
Ссылка Backblaze ... отлично.
О. Джонс
9

Я должен был рассмотреть эту проблему для клиента пару лет назад. У меня есть сочетание практического опыта и исследований, чтобы поддержать рекомендацию для нескольких источников.

Оставляя в стороне ваши плюсы и минусы на данный момент, а также отличный ответ ewwhite , благоразумие предполагает, что, если вы покупаете диски сами, вы используете их из нескольких источников. Беглый взгляд на обсуждение недостатков RAID в Википедии указывает на две интересные ссылки.

Первым указанием является бумажный RAID-массив ACM : высокопроизводительное и надежное вторичное хранилище (Chen, Lee, Gibson, Katz и Patterson. ACM Computing Surveys. 26: 145-185). В разделе 3.4.4 авторы указывают, что аппаратные сбои не всегда являются статистически независимыми событиями, и приводят причины этого. Когда я пишу этот ответ, статья доступна в Интернете; на стр. 19-22 обсуждается надежность ( http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.41.3889 ).

Второе упоминание о сбоях дисков в реальном мире: что для вас означает MTTF в 1 000 000 часов? (Шредер, Гибсон. 5-я конференция USENIX по технологиям хранения и хранения файлов.) Авторы приводят статистические данные, подтверждающие утверждение о том, что отказы дисков могут быть сгруппированы во времени со скоростью, превышающей прогнозируемые для независимых событий. Во время написания этого ответа этот документ также доступен в Интернете ( https://www.usenix.org/legacy/events/fast07/tech/schroeder/schroeder_html/index.html ).

Dell явно рекомендовала использовать RAID 5 еще в 2012 году из-за связанных с этим сбоев дисков в больших дисковых средах; Прогнозируется, что RAID 6 станет ненадежным по аналогичным причинам в 2019 году (статья ZDNet под названием «Why-Raid-6-Stop-Work-In-2019»: http://www.zdnet.com/article/why-raid-6 -staps-working-in-2019 / ). В то время как ключевым элементом обоих из них является размер диска и время восстановления, меньшие размеры дисков и мультисорсинг были рекомендованы в качестве смягчителя для проблемы RAID 5.

Так что, если хотите, используйте несколько источников; если вы покупаете у корпоративного поставщика, как описано в ответе ewwhite, это может произойти для вас прозрачно. Однако ... мой клиент купил 16 накопителей по 2 ТБ у поставщика. Просто они были от одного производителя и, казалось, были изготовлены в одно и то же время. Два диска вышли из строя в течение двух недель после настройки массивов RAID01. Поэтому проверяйте диски, когда вы их получаете. (Вы уже проверяли их в любом случае, верно?)

Eliodorus
источник
Я действительно не понимаю их аргументацию об отказе RAID6 из-за увеличения емкости хранилища. Любой массив RAID зависит от хорошего обслуживания для правильной работы. У нас очень большие массивы с RAID6, и мы никогда не сталкивались с URE во время перестройки, которая вызывала потерю данных. Просто делайте плановые проверки громкости, как рекомендует каждый MFG, и все будет в порядке.
Брайан Д.
4

Другим потенциальным недостатком индивидуального заказа дисков является упаковка и обработка.

Жесткие диски практически никогда не поставляются в розничной упаковке. Если вы покупаете их по одному, они почти наверняка будут перепакованы продавцом. Я нашел эту переупаковку очень изменчивым. Иногда вы получаете хорошую коробку с большим количеством набивок, но иногда вы вообще не получаете никаких набивок.

Коробка меньшего размера также более уязвима для того, чтобы ее бросали перевозчики без явного внешнего повреждения.

Питер Грин
источник
2

Если вы пытаетесь смягчить сценарий «плохой пакет», который означает, что каждый диск в конкретной партии покупки может / не сможет работать примерно в одно и то же время, важно также учитывать размер массива и уровень RAID.

Если вы рассматриваете возможность выполнения нескольких заказов, ни один из установленных стандартов не применим по всем направлениям. Люди, которые рекомендуют 2–4 уровня покупки, должны спросить себя, не выйдет ли массив из строя в случае сбоя одного целого ряда дисков? Поэтому для уровней RAID с избыточностью, таких как 1/5/10/50, вам придется покупать диски по 1 за раз. Для RAID6 вы можете купить 2 одновременно.

Я бы порекомендовал, независимо от того, как вы регулярно приобретаете диски, для которых выполняете резервное копирование, и покупаете подходящие горячие / холодные резервы для вашего размера массива и типа RAID.

Брайан Д.
источник
2

Я всегда покупаю б / у оптом. Отслеживаемые заказы почти всегда имеют одну и ту же модель устройства, и их использование, по крайней мере, уменьшает беспокойство по поводу «плохой партии». В интернете так много плавающего оборудования, что мне трудно оправдать покупку новых дисков (или чего-либо еще), если только это не для критически важного оборудования (а все наше оборудование для резервного копирования все еще восстанавливается!)

+ PRO: конкурентоспособные цены в Интернете и постоянный поток аппаратного обеспечения из-за меняющейся бизнес-среды означает, что почти без усилий можно получить скидку 50-80% на розничную торговлю.

+ PRO: Низкая цена освобождает бюджет от перепродажи и обеспечивает надежный запас запасного оборудования.

+ PRO: отношения с продавцами У меня есть несколько онлайн-продавцов, которым я получаю небольшие скидки от уже существенной скидки на ремонт / бывшее в употреблении оборудование. Обычно это не получится с Monoprice, если вы не покупаете в огромных количествах или не имеете SLA с ними. Кроме того, особенно с жесткими дисками, просто проверьте их прямо из коробки. У меня никогда не было проблем с продавцом, который не возмещал или заменял оборудование DOA (если это не было мошенничеством, которое я не смог поймать).

-CON: Гарантия, вопросы легитимности Гарантия основана на дате изготовления устройства, вам также нужно будет следить за онлайн-хакстерами, пытающимися продать вам ребрендов, клонов и т. Д.

-CON: Тестирование Необходимо учитывать накладные расходы на тестирование. В любом случае, вы должны тестировать новое оборудование, поэтому не уверены, применимо ли это.

-CON: продолжительность жизни трудно судить; немного более подвержен сбоям диска.

Примечание: если это клиентская сборка, и они не требуют явного запроса на восстановление / использование, всегда по блестящему / новому!

MLxS
источник
Полностью. Я покупаю много сданных в аренду и восстановленных дисков HP, потому что: дешево. Кроме того, гарантия на сервер HP распространяется на все, что находится внутри шасси, поэтому, пока оно является действительной частью, это хорошо.
Ewwhite
1

Можно добиться большей надежности, используя жесткие диски разных серий и, в идеале, производителей. В противном случае они могут потерпеть неудачу слишком близко во времени. Отличный ответ @Eliodorus объясняет это достаточно.

Конечно, не имеет значения, кто тасует диски. Если ваш провайдер уже подтвердил, что он это делает, вам не о чем беспокоиться. Однако кажется нецелесообразным проводить судебную экспертизу, возможно, даже другого поставщика и делать вывод, что кто-то делает для вас, если вам не сказали напрямую. Поставщикам обычно не лень рекламировать различные меры, которые они принимают для повышения надежности своих дисков.

h22
источник
1

На самом деле, это зависит от избыточного массива недорогих дисков (Raid) уровня. В Raid два, три, четыре, пять и шесть, это помогает иметь диски из нескольких разных партий, но это не является решающим: один уже по своей природе теряет надежность и производительность при использовании этих уровней.

Теперь, для обычно нормального выбора, использования Raid 1 (зеркалирование) или 1 + 0 (чередование зеркал), действительно полезно иметь разные диски на разных сторонах каждого зеркала (каждый массив Raid 1), чтобы не иметь зеркало сбой во время восстановления. Кроме того, должны быть горячие резервы, чтобы минимизировать окно восстановления.

Для получения дополнительной информации посетите веб-сайт «Борьба против любого рейда 'F'2 (Baarf)», издаваемый престижной сетью Oak Table старших администраторов баз данных. Википедия также подытоживает проблему.

LFD
источник
Кажется, это просто мнение. Если у вас есть источники, приведите цитату и ссылку на них.
MadHatter,
Ну, на самом деле я упомянул источник. И я бы сказал, что это гораздо более логично (характер зеркалирования против чередования и контрольных сумм), чем мнение.
17
7
Источник, на который вы ни ссылались, ни цитировали; ожидание того, что другие будут искать в Google ваш исходный веб-сайт для поиска всей информации в поддержку данных, на самом деле не дает убедительного ответа. Что касается логики , то в точности я думаю, что мы довольно ясно понимали, что с волнистостью просто понятно, что ответы на этот конкретный вопрос не будут хорошо восприняты.
MadHatter
4
@lfd ссылка на веб-сайт, хотя и использует «логику» для объяснения своей позиции, не предоставляет данных (что я мог увидеть с первого взгляда). Проблема с «логикой» заключается в том, что это просто другое название теории в этом контексте. И проблема с непроверенными теориями, надеюсь, ясна. Обратите внимание, что непроверенные теории, подкрепленные экспертами, по-прежнему имеют ту же проблему, что и непроверенные теории в целом.
user2460798
-1

Насколько я знаю, проверка качества дискового хранилища на заводе довольно высока, и я лично не боюсь массового сбоя оборудования из-за производственных причин.

И если бы я был немного параноиком, я бы просто купил хранилище у двух разных производителей, которые, как я знаю, не делят фабрики, у одного и того же поставщика.

Хранилище настолько дешево, что для компании не имеет смысла НЕ покупать оптом, и через пару лет вы будете в компании также списывать хранилище, так что инвестиции не так уж велики. Время, необходимое для покупки у отдельных поставщиков, вероятно, будет стоить дороже из-за затраченного времени.

Если вы все еще боитесь массового сбоя диска, покупайте больше, чем вам нужно. если вы знаете, что вам нужно 12 дисков, то купите 5-7 в запасной. Это будет всего $ 48 от 5 до 7 за терабайт, и мы все равно можем пойти дешевле, не делая нашу систему нестабильной или небезопасной, потому что если скидка на оптовые или подержанные диски (почему это безопасно). Чем мы говорим о повторной инициализации / повторной инициализации массива, теперь у меня, конечно, нет никакого способа узнать, насколько велико ваше решение для хранения данных, но если вы потратите недели на эту задачу, я бы, вероятно, подумал бы о переконфигурировании хранилища организации, поскольку это звучит (для меня) больше как неправильная конфигурация, чем все остальное, так или иначе.

Если мы станем ДЕЙСТВИТЕЛЬНО параноиком, получим в 2 раза больше, чем когда-либо используемое вами решение для хранения данных, исходя из того, насколько чувствительна ваша организация к поломке хранилища, это может быть дешевле, это не только вариант для компаний из списка Fortune 500.

И мы также можем поговорить о выгрузке данных, которые нам не нужны здесь и сейчас, таких как (случайный пример) годы исторических финансовых данных для «облачных» поставщиков, которые мы сначала шифруем. Это избавит от необходимости хранения в нашем собственном хранилище, что освободит нас в финансовом или функциональном плане.

Исходя из того, кто вы есть, где вы находитесь и что вы делаете, они будут разными решениями для лучшей работы для вас.

Кристиан Матиас Амбук
источник
1
Если вы -1 что-то, вы должны иметь порядочность заявить, почему. Может быть, у вас аллергия на правду.
Кристиан Матиас Амбек