RAID-6: лучше заменить два мертвых диска одновременно или по одному?

21

У нас есть 16-дисковый RAID-6 с тремя проблемными дисками. Двое уже мертвы, а третий предупреждает SMART. (Не берите в голову, как это попало в такое плохое состояние.)

Очевидно, что мы хотим заменить мертвые диски до того, который еще работает, но лучше:

  1. замените один неработающий диск, перестройте RAID, затем замените другой и дайте ему перестроиться снова; или

  2. Замените оба диска одновременно и дайте ему восстановить оба параллельно?

Иными словами, сможем ли мы быстрее вернуться в состояние избыточности, повторно введя один или два диска? Замедляет ли восстановление двух дисков параллельно процесс восстановления?

В случае, если это имеет значение, контроллером является 3ware 9650SE-16ML.

Уоррен Янг
источник
10
Пересеките все, что вы можете получить, и отправьте своему любимому божеству большое пожертвование!
user9517 поддерживает GoFundMonica
1
Могу ли я просто задать один вопрос по этому поводу; Можете ли вы сообщить нам точную марку и модель диска в этом массиве, пожалуйста - если мои подозрения верны, вы вполне можете увидеть, что этот вопрос станет полезным ориентиром для будущих пользователей, задающих определенные вопросы. Спасибо.
Chopper3
8
@Warren - AIEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEEE! Они выключили это? Bad JuJu мой друг! На этот раз уже слишком поздно, но, вообще говоря, отключение дисков (особенно, если они являются старыми дисками, которые работали и работают долгое время) дает им возможность генерировать ошибки при раскрутке (и заставлять контроллер говорить «Да, этот диск теперь тоже
жарен
2
@ voretaq7: я однажды отправил все диски из коробки MSA-20 в ад, выключив их после ~ 3 лет безотказной работы и непрерывного использования. Больше никогда этого не сделаю :-)
karatedog
1
Массив уже готов и перестраивается, поэтому я могу получить точные модели для всех, кому это нужно. Оригинальные жесткие диски были ST31000340NS, то есть они были серверной версией той, о которой спрашивал Chopper3. Так это пресловутый провал или что-то? (Новые - ST31000524NS.)
Уоррен Янг

Ответы:

27

!!!!! ОДИН !!!!!

Делай по одному, серьезно, чувак, не думай делать это ЛЮБЫМ другим способом, хорошо.

Все остальное проверит ваши полные навыки восстановления системы.

Chopper3
источник
3
Два элемента, которые я бы добавил к этому ответу: (1) МОЛИТВА (любому божеству, которое вам нравится) и (2) МОНИТОРИНГ, как только вы вернете все в безопасное состояние (чтобы вы знали, когда в будущем произойдет сбой накопителей, и сможете адресовать проблема, прежде чем у вас есть два с половиной сбоев. При желании вы также можете настроить горячий резерв в массиве на будущее
voretaq7
3
Или используйте RAID 10 </ stockanswer>
Chopper3
1
Re: молитва , без комментариев. :) Re: мониторинг , я защищаю это в течение многих лет; возможно это зажжет огонь под кем-то. Re: RAID-10 , слишком много данных на рынке заявок; когда вышло 3 ТБ диска, мы не делали тройной избыточности, мы сократили количество дисков на 1/3. Вздох. Re: горячее резервирование , мы делаем это сейчас, когда накопители достаточно велики, чтобы позволить это, но этот конкретный сервер состоял из 16 накопителей в корпусе из 16 накопителей, когда накопители емкостью 1 ТБ были самыми большими, и мы действительно нуждались во всех 14 доступных ТБ , Переход на систему с 24 приводами не сработал бы; см. предыдущий :)
Уоррен Янг
2
Если диски уже вышли из строя, то нет причин держать их рядом - скорее, я ожидаю, что две последовательные перестройки будут более напряженными для других дисков, чем для одной.
Саймон Рихтер
1
+1, это. Хотя две последовательные перестройки увеличивают нагрузку и, скорее всего, приводят к отказу третьего диска до того, как вы завершите оба, это также более быстрая перестройка, и, если сбой маргинального диска завершается при восстановлении 2-го диска, вы все равно останетесь в сети. Таким образом, самый быстрый и безопасный путь к отказоустойчивому состоянию - по одному.
Джоэл Коэль
14

У вас есть хорошие, последние резервные копии? Если нет, как вы думаете, вы можете получить их в разумные сроки?

Честно говоря, я бы больше беспокоился о том, чтобы отключить неисправный диск в автономном режиме во время перестройки, чем что-либо еще - если вы уже выбрасываете ошибки SMART, вы находитесь на полпути.

Мое предложение было бы подтвердить ваши резервные копии, а затем перестраивать один диск за раз, чтобы попытаться восстановить состояние, при котором вы можете заменить один, выбрасывающий ошибки SMART (сначала неработающие диски, а затем программные ошибки).

Если у вас нет резервных копий, это дерьмовый снимок: резервное копирование может создать достаточно мягких ошибок, чтобы пометить маргинальный диск как сбойный, а также попытаться восстановить.

voretaq7
источник
2
Большая часть или все данные в этом массиве являются своего рода кэшем, чтобы избежать необходимости многократного извлечения терабайтов данных через медленное соединение. Эти данные кэша могут быть заменены либо путем повторной загрузки в течение нескольких месяцев (один раз), либо путем отправки их на сайт, который можно скопировать из другого массива. Итак, резервные копии не проблема. Что мы пытаемся предотвратить, сохраняя массив, так это дни и недели простоя, когда сервер отправляется в сервисный центр, перезаполняет массив и отправляет его обратно.
Уоррен Янг
в этом случае то, что сказал @ chopper3, в значительной степени соответствует Закону Земли: перестраивайте один диск за раз и ПРОЧИТАЙТЕ ДЕЙСТВИТЕЛЬНО ДЕЙСТВИТЕЛЬНО ЖЕ, чтобы вы не отключали маргинальный диск в автономном режиме с дополнительной нагрузкой на чтение.
voretaq7
Фу - рад это слышать.
Chopper3
0

Я не вижу смысла менять его как «один диск за раз».

Очевидно, что если RAID способен «восстанавливать» оба диска одновременно ( которые в любом случае не работают ), вы выигрываете только, позволяя всему RAID восстановить способность выдерживать до 2 сбоев быстрее .

poige
источник
-1

Мой 0,02. $

Поскольку сервер уже находится в автономном режиме, запустите ddrescue на диске, который вот-вот выйдет из строя, чтобы клонировать его на другой нормальный диск.

Затем вместо этого поместите новый, нормальный диск в массив. Если клонирование прошло успешно, вы избежите риска сбоя диска во время 2 перестроений.

Гийом А
источник
Это аппаратный RAID-контроллер, отдельные диски не адресуемы.
Chopper3