Не удалось установить том RAID-массива Areca 1280ml

10

Сегодня мы столкнулись с каким-то худшим сценарием и открыты для любых хороших идей.

Вот наша проблема:

Мы используем несколько выделенных серверов хранения для размещения наших виртуальных машин. Прежде чем я продолжу, вот спецификации:

  • Выделенный сервер
  • RAID-контроллер Areca 1280ml, Прошивка 1.49
  • 12x жесткие диски Samsung объемом 1 ТБ

Мы настроили один RAID6-набор с 10 дисками, который содержит один логический том. У нас есть два горячих резерва в системе.

Сегодня один жесткий диск вышел из строя. Это происходит время от времени, поэтому мы заменили его. После восстановления второй диск не удалось. Обычно это не весело. Мы остановили тяжелые операции ввода-вывода, чтобы обеспечить стабильное восстановление RAID.

К сожалению, диск горячего резервирования потерпел неудачу во время восстановления, и все это прекратилось.

Теперь у нас следующая ситуация:

  • Контроллер говорит, что набор рейдов восстанавливается
  • Контроллер говорит, что громкость не удалось

Это система RAID 6 и два диска вышли из строя, поэтому данные должны быть целыми, но мы не можем снова подключить том к сети для доступа к данным.

При поиске мы нашли следующие выводы. Я не знаю, хорошие они или плохие

  1. Зеркальное отображение всех дисков для второго набора дисков. Таким образом, у нас была бы возможность попробовать разные вещи, не теряя больше, чем у нас уже есть.

  2. Попытка перестроить массив в R-Studio. Но у нас нет реального опыта работы с программным обеспечением.

  3. Вытащить все диски, перезагрузить систему, перейти в биос контроллера ареки, заново установить жесткие диски по одному. Некоторые люди говорят, что это привело систему онлайн к этому. Некоторые говорят, что эффект равен нулю. Некоторые говорят, что они взорвали все это.

  4. Использование недокументированных команд ареки, таких как «спасение» или «LeVel2ReScUe».

  5. Обращение в службу компьютерной экспертизы. Но вот ... первичные оценки по телефону превысили 20.000 €. Вот почему мы просим о помощи. Может быть, мы упускаем очевидное?

И да, конечно, у нас есть резервные копии. Но некоторые системы потеряли одну неделю данных, поэтому мы хотели бы снова запустить и запустить систему.

Любая помощь, предложения и вопросы приветствуются.

Ричард
источник
3
Я бы сказал, что, что бы вы ни делали, ваш первый шаг должен быть ddзеркалом всех дисков, просто чтобы предотвратить больший ущерб и иметь запасной план при работе над реальным решением.
Свен
Мы сделаем это ...
Ричард
1
Как насчет горячих запчастей?
Cawflands
1
Можете ли вы обратиться к поставщику за поддержкой? Предполагая, что вы не можете (и вы использовали dd для зеркального отображения всего, в соответствии с отличным предложением @ SvenW), почему бы не заменить неисправные диски, перезагрузиться и посмотреть, что произойдет? Я бы не обязательно вытягивал все диски, только неисправные. Но на самом деле ваша первая ставка - поставщик, они понимают свое программное обеспечение.
Джереми
Вы нашли решение? Если это так, дайте нам знать, что это было для дальнейшего использования, пожалуйста!
Грант

Ответы:

2

Я думаю, что вариант 1. ваш лучший.

Возьмите 12 новых жестких дисков и 1 новый RAID-контроллер. Попробуйте отразить (dd if = of =) старые диски на новые 1: 1, используя любой Linux-бокс. Создайте новый сервер, используя новый RAID-контроллер 1x и новые жесткие диски 12x

Попробуйте перестроить массив на новом сервере. Успех? Отлично. Стоп.
Перестроить не удалось? Снова отразите старые диски на новые, попробуйте Option i + 1

cipy
источник
0

К сожалению, это очень распространенный сценарий. Это было хорошее исследование Google, проведенное несколько лет назад, и оказалось, что потеря данных с помощью RAID может произойти во время перестройки массива. Это может повлиять на разные системы RAID с разной степенью серьезности. Вот сценарий RAID6:

  • В вашем массиве 3 диска данных и 2 диска четности.
  • Если вы потеряете один диск, то все данные будут восстановлены.
  • если вы потеряете 2 диска, вы потеряли данные

Это почему?

Подумайте о следующем: позвольте иметь некоторые данные, предположим, что первые 3 блока файла имеют следующие блоки данных: A1 + A2 + A3 и следующую четность: Ap + Ap, сидящий на hdd1 ... hdd5

Если вы потеряете два диска между 1 и 3, вы потеряли данные, потому что данные не подлежат восстановлению, у вас есть 2 контроля четности и 1 блок данных.

Теперь тот же сценарий с 10 дисками может отличаться, но я предполагаю, что он обрабатывается так же, как вы разделяете данные на 8 блоков и сохраняете четность на 2 других накопителях и имеете 2 «горячих» резервирования. Знаете ли вы детали конфигурации вашего RAID-контроллера?

Я бы начал восстанавливаться из резервной копии вне сайта (я полагаю, у вас есть такая возможность), и служба снова пытается восстановить как можно больше данных, используя Unix и dd диски в образы и используя его, например, в качестве устройства петли.

http://wiki.edseek.com/guide:mount_loopback

Вам нужно знать, какие метаданные использует контроллер RAID, и, если вам повезет, они поддерживаются каким-либо инструментом, таким как dmraid.

Но это вовсе не означает, что вы можете восстановить данные вообще, так как файлы обычно распределяются по многим-многим блокам, восстановление, скорее всего, не сможет вернуть ваши данные.

Подробнее о RAID:

https://raid.wiki.kernel.org/index.php/RAID_setup

Иштван
источник