DL380 G5, RAID5, ext3, RAID Failed

9

У нас есть старый сервер HP DL380G5 с 5 300 ГБ SCSI 3.5 '' дисков в массиве RAID5 во внешнем отсеке, отформатированный как логический том с файловой системой ext3, в котором хранятся 1,2 ТБ конфиденциальных данных клинических пациентов.

Два диска показали прогностический сбой в hpacucli, поэтому я сначала заменил один из них и увидел, что все в порядке, но я не увидел, что в нем также указано «Готов к восстановлению». Я совершенно небрежно изменил и второй, и теперь он говорит, что RAID-массив не сработал.

Я вернул старый диск обратно, попытался перезагрузить сервер, но теперь он переводит меня в режим восстановления во время загрузки и говорит, что не может найти логический том.

Что я могу сделать, чтобы попытаться восстановить это? К сожалению, у нас нет резервной копии. Любая помощь будет принята с благодарностью!

Я думал о возвращении ОБА старых дисков обратно, есть ли шанс, что это оживит RAID?

undernaut
источник
Комментарии не для расширенного обсуждения; этот разговор был перенесен в чат .
Майкл Хэмптон
4
Я полагаю, ваша группа начнет делать резервные копии сейчас. Если это когда-либо был вопрос необходимости или стоимости, это должен быть довольно четкий предупредительный выстрел.
Джонатон Рейнхарт

Ответы:

25

Мне жаль. Но это ошибка оператора.

У вас было два сбойных диска в массиве RAID5, и вы удалили больше дисков, чем смог выдержать массив.

Делать это без каких-либо резервных копий - большая ошибка.

Вам следует обратиться в фирму по восстановлению данных, чтобы попытаться получить данные со сломанного логического диска.

ewwhite
источник
1
Похоже, он знает, что это ошибка оператора ... Это не причина не спрашивать, что он может сделать сейчас
StarWeaver
@StarWeaver Да ... контакт с фирмой по восстановлению данных является подходящим следующим шагом.
ewwhite
11

Не включайте систему снова. Выключите его, позвоните в службу восстановления данных. Существует ряд служб, которые позволяют удаленно восстанавливать этот тип сбоя. На данный момент все, что вы можете сделать, это сделать это хуже.

Это часто включает в себя подключение всех дисков непосредственно к исправному HBA (не RAID-карте или другому контроллеру!) И запуск определенного загружаемого образа Linux с помощью инструментов удаленного управления. Затем компания получает удаленный доступ к системе, оценивает состояние диска и восстанавливает все оставшиеся метаданные RAID. Используя проприетарное программное обеспечение, они могут повторно собрать виртуальный диск RAID (технические детали: часто то, что подключается к стандартной системе отображения устройств Linux). Это тогда выставляет RAID только для чтения в программном обеспечении (без ускорителя RAID SoC). Следующие шаги проверяют, не повреждены ли данные после использования, и клонируют виртуальный диск на новый диск для завершения восстановления данных. После этого вы можете беспокоиться о том, чтобы система снова заработала и заработала.

Хотя я не собираюсь называть здесь какие-либо службы, большинство из них легко найти, и для тех, у которых есть удаленные службы (избавляя вас от необходимости отправлять к ним диски RAID + диск восстановления и ждать восстановления + клонирование и затем они отправляют его обратно) вы получаете выгоду от данных, которые никогда не покидают ваше учреждение.


Небольшое количество хороших новостей: если RAID-контроллер (или вы) не записывал какие-либо новые данные ни на один из дисков, а предупреждение перед сбоем не является предупреждением об ошибке, вероятность составляет 99,9999% хорошая команда восстановления данных может восстановить все это, и достаточно быстро тоже.

Джон Китс
источник
5

Re: восстановление старых дисков.

Поскольку ваш RAID-массив полностью не работает, его мало что можно потерять, переставив два диска до отказа.

Устанавливайте их в оригинальные отсеки.

Помните, что они до сбоя, а не сразу, поэтому есть большая вероятность, что они будут работать достаточно долго, чтобы спасти ваши данные.

Существует вероятность, что рейд просто не появится, и небольшая вероятность, что контроллер попросит «сбросить» рейд (выберите НЕТ / ОТМЕНА), и крошечный шанс, что контроллер рейда может автоматически сбросить рейд, что сведет на нет любое значение. добавлено фирмой восстановления данных.

Таким образом, ваш высший приоритет, если появится RAID, - получить данные. Это означает наличие как минимум 1,2 ТБ свободного места и готовность к копированию данных, а также готовый к запуску инструмент, подобный robocopyили xcopy32или в вашем случае с Linux rsync. Вы не хотите тратить время на чтение справочных страниц и выяснение синтаксиса, если ваши накопители тратят впустую свои последние минуты.


Как только ваши данные в безопасности, воссоздайте raid как raid6 с новыми дисками. Вы потеряете 300 ГБ емкости, но получите допуск на два диска. Или добавьте дополнительный диск и рассмотрите raid10 по 6 дискам. Или подумайте о том, чтобы полностью удалить эту машину; G5 более 10 лет и больше не подходит для важных производственных задач.

И не пытаясь поставить загрузку, но также настройте правильное решение для резервного копирования. Будет в следующий раз.

Criggie
источник
2
Просто чтобы уточнить - существует небольшая, но ненулевая вероятность того, что это затруднит задачу любой коммерческой фирмы по восстановлению данных, чтобы помочь вам. Лично я бы попытался собрать рейд, и если это не сработает, подведите итоги.
Кригги,