У нас есть сервер Dell PowerEdge T410 под управлением CentOS с массивом RAID-5, содержащим 5 дисков Seagate Barracuda 3 ТБ SATA. Вчера система рухнула (я не знаю, как именно, и у меня нет никаких журналов).
Загрузившись в BIOS RAID-контроллера, я увидел, что из 5 дисков диск 1 был помечен как «отсутствующий», а диск 3 - как поврежденный. Я принудительно скопировал диск 3 и заменил диск 1 новым жестким диском (того же размера). BIOS обнаружил это и начал восстанавливать диск 1 - однако он застрял на% 1. Индикатор прогресса вращения не двигался с места всю ночь; полностью заморожен
Какие у меня есть варианты? Есть ли способ попытаться восстановить, кроме как использовать какой-либо профессиональный сервис восстановления данных? Как два жестких диска могут выйти из строя одновременно? Кажется слишком случайным. Возможно ли, что диск 1 вышел из строя, и в результате диск 3 "вышел из синхронизации?" Если так, есть ли какая-либо утилита, которую я могу использовать, чтобы вернуть ее "в синхронизации"?
источник
Ответы:
После того, как вы приняли неверный ответ, мне очень жаль мое еретическое мнение (которое уже несколько раз сохраняло такие массивы).
Ваш второй неисправный диск, вероятно, имеет небольшую проблему, возможно, сбой блока. Это причина, почему плохой инструмент синхронизации вашей плохой прошивки raid5 упал на него.
Вы можете легко сделать копию на уровне секторов с помощью низкоуровневого инструмента клонирования дисков (например, gddrescue , вероятно, очень полезен) и использовать этот диск в качестве нового диска3. В этом случае ваш массив выжил с незначительным повреждением данных.
Прошу прощения, наверное, уже слишком поздно, потому что суть ортодоксального ответа в этом случае: «множественный сбой в рейде5, вот и апокалипсис!»
Если вы хотите очень хороший, избыточный рейд, используйте программный рейд в Linux. Например, его макет данных о рейд-суперблоке общедоступен и задокументирован ... Мне очень жаль, но это еще одно еретическое мнение.
источник
У вас двойной сбой диска. Это означает, что ваши данные ушли, и вам придется восстановить из резервной копии. Вот почему мы не должны использовать raid 5 на больших дисках. Вы хотите настроить свой рейд, чтобы у вас всегда была возможность противостоять двум сбоям диска, особенно на больших медленных дисках.
источник
Ваши варианты:
источник
Одновременный отказ возможен, даже вероятен, по причинам, указанным другими. Другая возможность состоит в том, что один из дисков вышел из строя некоторое время назад, и вы не проверяли его активно.
Убедитесь, что ваш мониторинг быстро обнаружит том RAID, работающий в ухудшенном режиме. Может быть, у вас не было выбора, но никогда не стоит учиться этим вещам в BIOS.
источник
Чтобы ответить "Как два жестких диска могут выйти из строя одновременно?" точно, я хотел бы процитировать из этой статьи :
Итак, RAID5 был небезопасен в 2009 году. RAID6 тоже скоро будет. Что касается RAID1, я начал делать их из 3 дисков. RAID10 с 4 дисками также ненадежен.
источник
Поток устарел, но если вы читаете, поймите, когда диск выходит из строя в массиве raid, проверьте возраст дисков. Если у вас есть несколько дисков в массиве raid, и им более 4-5 лет, велика вероятность, что другой диск выйдет из строя. *** СДЕЛАТЬ ИЗОБРАЖЕНИЕ или Резервное копирование **, прежде чем продолжить. Если вы считаете, что у вас есть резервная копия, проверьте ее, чтобы убедиться, что вы можете прочитать ее и восстановить из нее.
Причина в том, что вы оставляете годы нормального износа оставшихся дисков, поскольку они вращаются на полной скорости в течение нескольких часов. Чем больше число дисков 6 лет, тем больше вероятность того, что другой диск выйдет из строя из-за стресса. Если это RAID5, а вы разбили массив, то у вас есть резервная копия, но для восстановления диска объемом 2 ТБ потребуется 8 - 36 часов, в зависимости от типа контроллера raid и другого оборудования.
Мы регулярно заменяем весь рейд-улей на производственных серверах, если все диски старые. Зачем было тратить время на замену одного диска, а затем подождите, пока следующий не выйдет из строя через день, неделю, месяц или два. Каким бы дешевым ни был дисковод, его просто не стоит времени простоя.
источник
Как правило, при покупке дисков в большом количестве у надежного торгового посредника вы можете запросить, чтобы диски поступали из разных партий, что важно по причинам, указанным выше. Далее, именно поэтому существует RAID 1 + 0. Если бы вы использовали 6 дисков в RAID 1 + 0, у вас было бы 9 ТБ данных с немедленной избыточностью, где не требуется перестройка тома.
источник
Если ваш контроллер распознается dmraid (например, здесь ) в linux, вы можете использовать ddrescue для восстановления неисправного диска на новый и использовать dmraid для создания массива вместо вашего аппаратного контроллера.
источник