Может ли сбой установки диска RAID 4, если выйдет из строя только один жесткий диск? [закрыто]

9

Я веб-разработчик. У меня не так много опыта в оборудовании. По этой причине я использую управляемые серверы.

Сегодня утром один из дисков в нашей установке вышел из строя. Тем не менее, полный сайт пошел вниз. Я спросил своего веб-хостинга, что случилось, и он ответил, что жесткий диск вышел из строя таким образом, что RAID-контроллер не может работать должным образом. Массив был настроен как RAID 4.

Ребята, вы когда-нибудь видели это раньше? Является ли это возможным?

Спасибо за любую помощь в этом, ребята. Мне нужно знать, честен ли мой веб-хостинг со мной.

Стив Родриг
источник
Если более одного диска в массиве умирает, RAID-массив выйдет из строя (хотя это зависит от настройки RAID).
Рис Эванс
Коротко говоря, ваш поставщик услуг ****** и работает по дешевке. Это может быть вполне приемлемо, если вы, как клиент, были предупреждены о том, что его инфраструктура не является отказоустойчивой при отказах дисков.
Luke404
Пожалуйста, обновите вопрос, указав тип рейда (т.е. рейд 0,1,4,5,6 и т. Д.).
Тревор Бойд Смит

Ответы:

22

Скорее всего, ваш провайдер использует жесткие диски, которые не предназначены для использования в RAID. Обычные потребительские диски SATA попадают в эту категорию.

Вероятная проблема заключается в том, что на диске начались неисправимые ошибки чтения (URE). Когда это происходит на потребительском диске, диск сидит там и повторяет операцию чтения (обычно в течение 30-60 секунд), пока он не сдастся. RAID будет ждать, пока накопитель сообщит об ошибке (30-60) секунд. Таким образом, простой запрос для нескольких секторов может легко привести к остановке сервера, в то время как отказавший диск выполняет эти операции повторного чтения.

Диски, предназначенные для RAID-массивов, имеют либо Time Limited Error Recovery (для дисков SATA). TLER быстро сообщает о сбоях контроллерам, так что контроллер может разумно реагировать на такие сбои (в основном интеллектуально; надеюсь). SCSI (тоже SAS) работает несколько иначе. Набор команд SCSI позволяет контроллеру задавать различные пределы восстановления для дисков (MODE SELECT: RW ERR RECOVERY). RAID-контроллер должен настроить диски на быстрый выход из строя, затем контроллер может проверить, считает ли диск, что он работает должным образом, с помощью команды TUR, вывести диск из массива, если есть условие проверки.

Крис С
источник
Хорошее объяснение.
sbrattla
11

Да, это возможно даже в тех случаях, когда вы думаете, что массив должен был пережить сбой.

Некоторые возможности относительно того, почему массив отказывает:

  • Сбой большего количества дисков, чем может выдержать режим RAID. Например:
    • RAID 0 (чередование) не выдерживает сбоев дисков.
    • RAID 1 может пережить сбои всех, кроме 1 диска.
    • RAID 4/5 может пережить 1 сбой диска.
    • RAID 6 может пережить 2 отказа диска.
    • RAID 10 может выдержать сбой до 50% дисков, в зависимости от того, какие диски вышли из строя.
  • Ошибка в программном обеспечении RAID или микропрограмме контроллера.
  • Ошибка пользователя.
    • Кто-то вытащил слишком много дисков.
    • Кто-то вытащил диск и не заменил его, а другой диск впоследствии вышел из строя.
    • Массив не отслеживался, что позволяло отказывать большему количеству дисков, чем можно было бы пережить.
  • Известно, что дешевые контроллеры с накопителями потребительского класса выходят из строя даже в других жизнеспособных сценариях.
    • Привод потребительского уровня будет пытаться почти до бесконечности читать плохой сектор, пока не получит хорошее чтение. Дешевый контроллер почти бесконечно будет ждать, пока такой привод вернет результат. Ожидание может быть настолько долгим, что операционная система сдается. Затем при перезагрузке диски не реагируют достаточно быстро на контроллер, и предполагается, что массив вышел из строя.
    • С другой стороны, диск корпоративного уровня быстро сдается, что позволяет контроллеру получать данные с другого диска. Кроме того, хороший контроллер будет отмечать диск, который слишком долго реагирует на сбой и продолжает работу.
длинная шея
источник
1
RAID 1 должен выдержать смерть всех дисков массива, кроме одного . Конечно, большинство людей, вероятно, запускают установки RAID 1 на два диска, что означает, что он может выжить только после смерти одного диска, но это не присуще RAID 1.
CVn
Интересно, что если один диск в RAID 10 выходит из строя, вам следует разбить другой диск, потому что он не выживет, если сломан только один диск :-) Я думаю, вам следует отредактировать свой пост.
FLY
@ MichaelKjörling хорошая мысль. Я отредактировал свой пост.
Longneck
@FLY ты прав, я обмолвился об этом. изм.
longneck
RAID4 должен быть RAID3. RAID3 - чередование байтов с четностью; RAID4 был ECC-реализацией, для которой требовалось огромное количество дисков, которые AFAIK никогда не применял.
Дэн возится с огнем
8

Если это была реализация RAID 0, то, безусловно, при выходе из строя одного диска вы потеряете массив и все данные на нем.

joeqwerty
источник
Это реализация RAID 4
Стив Родриг,
11
хахаха - ты почти привел меня туда, что это на самом деле?
Chopper3
3
@ Chopper3 NetApp использует RAID4. Так что это не совсем неслыханно, хотя это тоже дало мне смешок. Может быть, это способ хоста сказать, что у них есть NetApp Filer или что-то в этом роде.
HopelessN00b
1
@SteveRodrigue Вы уверены, что это RAID 4?
MDMarra
1
Если это действительно RAID4 и только 1 диск вышел из строя, то должна быть возможность установить новый диск и восстановить массив, по крайней мере, в принципе. Возможно, веб-хостинг имел в виду, что один из оставшихся дисков вышел из строя, когда он пытался это сделать?
user3490 26.11.12
2

Я видел, как ошибки прошивки уничтожают весь RAID, когда диск выходит из строя, или когда он начинает сообщать о скором сбое. Извините, мне не на что конкретно указывать, но да, это может случиться. Конечно, не как часть спецификации RAID, это определенно ошибка.

chutz
источник
1

Да, это возможно. Этого не должно произойти, но, безусловно, может. Введите URE (Неустранимая ошибка чтения), ошибки контроллера и ошибки прошивки и тому подобное.

Без дополнительной информации (которую ваш хост, вероятно, не предоставит вам) невозможно сказать определенно так или иначе, но любой, кто работал с большим количеством RAID-массивов, имел опыт, когда весь массив был потерян или потерпел крах, когда он не должен был

(И, между прочим, RAID4 не очень часто используемый уровень RAID, но должен выдерживать потерю любого диска . Однако это не значит, что так будет всегда.)

HopelessN00b
источник
1

У меня было много сбоев жесткого диска, когда отказывала не механика, а электроника, составляющая интерфейс связи. Из-за своего небольшого размера многие электронные компоненты очень чувствительны даже к незначительным электрическим нарушениям (это может случиться, когда рядом находятся крупные двигатели кондиционера, включенные / выключенные и т. Д., А источник питания немного дешев).

Когда внутренние преобразователи или конденсаторы (накопители энергии) накопителя сгорают, электрические сигналы, генерируемые на внешних разъемах жесткого диска, могут и будут выходить за пределы спецификации. Поскольку накопитель подключен к контроллеру с помощью медных проводов, и часто на серверах многие накопители используют кабельное соединение для упрощения установки и уменьшения помех, это может легко нарушить или даже навсегда разрушить любое количество соседних компонентов.

Кстати, это очень мало связано с ценообразованием. Это правда, что дорогие контроллеры и приводы МОГУТ использовать детали, которые более терпимы к ненормальным условиям или имеют лучшее экранирование, и что с бюджетными компонентами у вас больше шансов получить нестандартные детали. Но я регулярно находил идентичные конденсаторы на диске за 50 и 500 долларов. И если неисправный жесткий диск направляет 12 Вольт от источника питания к разъему SATA из-за короткого замыкания, ваш RAID-контроллер будет готов, независимо от того, сколько цифр было в ценнике.

Это не то, что обычно происходит, но это определенно не случайно в моем опыте.

Jost
источник
«часто на серверах многие диски используют кабельное соединение» Не в современных средах SAS или SATA. С астрономической точки зрения маловероятно, что ваш сценарий произошел здесь; Я не думаю, что когда-либо слышал о гибели электроники привода и взятии с собой других компонентов. В то время как 12 В, безусловно, поджаривают контроллер SATA или SAS, логические компоненты очень редко подключаются к 12 В любым способом, поскольку снижение напряжения с 12 до 3,3 или менее очень сложно по сравнению с источниками 5 В или 3,3 В. Мне любопытно, где у вас может быть голова такого рода вещей происходит; если вы готовы поделиться?
Крис С
1

Да, я предполагаю, что весь сбой может потерпеть неудачу после отказа одного диска. Первый неисправный диск будет переведен в автономный режим контроллером, и рейд все равно будет работать нормально. Но когда неисправный диск заменяется, контроллер начинает перестраивать рейд. Если на одном из оставшихся дисков обнаружена скрытая не обнаруженная проблема чтения, восстановление сбойного диска может привести к отключению большего количества дисков (при обнаружении проблем чтения во время перестройки рейда), снова вызывая весь рейд потерпеть поражение.

Pytagoras
источник
Вот почему RAID-массивы необходимо регулярно очищать для обнаружения проблем чтения или записи.
Крис С