Я веб-разработчик. У меня не так много опыта в оборудовании. По этой причине я использую управляемые серверы.
Сегодня утром один из дисков в нашей установке вышел из строя. Тем не менее, полный сайт пошел вниз. Я спросил своего веб-хостинга, что случилось, и он ответил, что жесткий диск вышел из строя таким образом, что RAID-контроллер не может работать должным образом. Массив был настроен как RAID 4.
Ребята, вы когда-нибудь видели это раньше? Является ли это возможным?
Спасибо за любую помощь в этом, ребята. Мне нужно знать, честен ли мой веб-хостинг со мной.
Ответы:
Скорее всего, ваш провайдер использует жесткие диски, которые не предназначены для использования в RAID. Обычные потребительские диски SATA попадают в эту категорию.
Вероятная проблема заключается в том, что на диске начались неисправимые ошибки чтения (URE). Когда это происходит на потребительском диске, диск сидит там и повторяет операцию чтения (обычно в течение 30-60 секунд), пока он не сдастся. RAID будет ждать, пока накопитель сообщит об ошибке (30-60) секунд. Таким образом, простой запрос для нескольких секторов может легко привести к остановке сервера, в то время как отказавший диск выполняет эти операции повторного чтения.
Диски, предназначенные для RAID-массивов, имеют либо Time Limited Error Recovery (для дисков SATA). TLER быстро сообщает о сбоях контроллерам, так что контроллер может разумно реагировать на такие сбои (в основном интеллектуально; надеюсь). SCSI (тоже SAS) работает несколько иначе. Набор команд SCSI позволяет контроллеру задавать различные пределы восстановления для дисков (MODE SELECT: RW ERR RECOVERY). RAID-контроллер должен настроить диски на быстрый выход из строя, затем контроллер может проверить, считает ли диск, что он работает должным образом, с помощью команды TUR, вывести диск из массива, если есть условие проверки.
источник
Да, это возможно даже в тех случаях, когда вы думаете, что массив должен был пережить сбой.
Некоторые возможности относительно того, почему массив отказывает:
источник
Если это была реализация RAID 0, то, безусловно, при выходе из строя одного диска вы потеряете массив и все данные на нем.
источник
Я видел, как ошибки прошивки уничтожают весь RAID, когда диск выходит из строя, или когда он начинает сообщать о скором сбое. Извините, мне не на что конкретно указывать, но да, это может случиться. Конечно, не как часть спецификации RAID, это определенно ошибка.
источник
Да, это возможно. Этого не должно произойти, но, безусловно, может. Введите URE (Неустранимая ошибка чтения), ошибки контроллера и ошибки прошивки и тому подобное.
Без дополнительной информации (которую ваш хост, вероятно, не предоставит вам) невозможно сказать определенно так или иначе, но любой, кто работал с большим количеством RAID-массивов, имел опыт, когда весь массив был потерян или потерпел крах, когда он не должен был
(И, между прочим, RAID4 не очень часто используемый уровень RAID, но должен выдерживать потерю любого диска . Однако это не значит, что так будет всегда.)
источник
У меня было много сбоев жесткого диска, когда отказывала не механика, а электроника, составляющая интерфейс связи. Из-за своего небольшого размера многие электронные компоненты очень чувствительны даже к незначительным электрическим нарушениям (это может случиться, когда рядом находятся крупные двигатели кондиционера, включенные / выключенные и т. Д., А источник питания немного дешев).
Когда внутренние преобразователи или конденсаторы (накопители энергии) накопителя сгорают, электрические сигналы, генерируемые на внешних разъемах жесткого диска, могут и будут выходить за пределы спецификации. Поскольку накопитель подключен к контроллеру с помощью медных проводов, и часто на серверах многие накопители используют кабельное соединение для упрощения установки и уменьшения помех, это может легко нарушить или даже навсегда разрушить любое количество соседних компонентов.
Кстати, это очень мало связано с ценообразованием. Это правда, что дорогие контроллеры и приводы МОГУТ использовать детали, которые более терпимы к ненормальным условиям или имеют лучшее экранирование, и что с бюджетными компонентами у вас больше шансов получить нестандартные детали. Но я регулярно находил идентичные конденсаторы на диске за 50 и 500 долларов. И если неисправный жесткий диск направляет 12 Вольт от источника питания к разъему SATA из-за короткого замыкания, ваш RAID-контроллер будет готов, независимо от того, сколько цифр было в ценнике.
Это не то, что обычно происходит, но это определенно не случайно в моем опыте.
источник
Да, я предполагаю, что весь сбой может потерпеть неудачу после отказа одного диска. Первый неисправный диск будет переведен в автономный режим контроллером, и рейд все равно будет работать нормально. Но когда неисправный диск заменяется, контроллер начинает перестраивать рейд. Если на одном из оставшихся дисков обнаружена скрытая не обнаруженная проблема чтения, восстановление сбойного диска может привести к отключению большего количества дисков (при обнаружении проблем чтения во время перестройки рейда), снова вызывая весь рейд потерпеть поражение.
источник