Замена жестких дисков [закрыто]

19

Мне было интересно, будет ли хорошей идеей заменить жесткий диск на (довольно) критичном для системы сервере базы данных после определенного количества лет использования, прежде чем он умрет.

Например, я думал о замене жесткого диска после 3 лет использования. Поскольку у меня много жестких дисков на разных серверах, я могу пошатнуться, какие жесткие диски заменены.

Это хорошая идея, или люди просто ждут неудачи?

Garfonzo
источник

Ответы:

33

Компания Google провела исследование дисковых накопителей и обнаружила очень небольшую взаимосвязь между сроком службы дисков и поломками. Тесты SMART также не показывают сбоев.

Мои локальные наблюдения (> 500 серверов) похожи. У меня новые диски быстро выходят из строя, в то время как старые все еще пыхтят.

Мое общее правило: если мы видели проблемы с диском (SMART или системные ошибки), мы немедленно его заменяем. Если нет, то диски отключаются, когда это делает сервер.

Google Study http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/archive/disk_failures.pdf

jeffatrackaid
источник
Это было вообще то, о чем я думал, но хотел посмотреть, что делают другие. Спасибо
Гарфонзо
2
Я согласен. Мы наблюдаем гораздо более высокую частоту отказов на новых 2,5-дюймовых дисках SAS, чем на 10-летних серверах с 3,5-дюймовыми дисками SCSI 9 ГБ!
Джеймс О'Горман
@ JamesO'Gorman Производственные процессы меняются ... меня удивляет, что было сделано с новыми приводами в рамках некоторого технического компромисса.
Эйвери Пейн
1
В Microsoft Technet также есть статья о толерантности к сбоям, в которой кратко говорится о сбое жесткого диска / механического компонента ( technet.microsoft.com/en-us/library/bb742464.aspx ) - они немного рассказывают о «кривой ванны», которую механический отказы компонентов имеют тенденцию следовать.
voretaq7
@AveryPayne Re новые накопители, обратите внимание, что 2,5-дюймовые накопители имеют НАМНОГО более жесткие допуски - в результате то, что раньше было «приемлемым» механическим перекосом на 3,5- дюймовом накопителе, может привести к катастрофическому отказу 2,5-дюймового накопителя. См. Также статью TechNet. Я рассказал о кривой ванны: механические компоненты в целом страдают от высокой младенческой смертности, а затем остаются относительно стабильными до тех пор, пока, наконец, не умрут от «старости». 2,5-дюймовые диски все еще находятся на территории «младенческой смертности» - по моему опыту минимум 1 год эксплуатации.
voretaq7
13

Нет.

Одна из самых больших проблем с заменой жесткого диска на активном производственном сервере состоит в том, что это вызовет перестройку. Особенно, если вы используете RAID5, и особенно если вы используете большие диски, принудительное восстановление создает очень значительный риск неисправимого сбоя. Риск потери массива во время восстановления гораздо выше, чем риск, связанный с оставлением 3-летнего накопителя на месте.

Возьмем крайний пример: если вы последовательно заменяете каждый диск в массиве RAID5 с 6 дисками, состоящем из дисков объемом 2 ТБ, ваш теоретический риск неустранимой ошибки чтения во время одного из восстановлений составляет около 58% (согласно моей математике для салфеток; пожалуйста, сделайте свое и сравните заметки). Другими словами: ваша «превентивная» замена диска, по сути, не что иное, как акт саботажа.

Единственный случай, когда я рассмотрю возможность обновления дисков на старом сервере, - это его «восстановление», например, после того, как он был выведен из эксплуатации из одной задачи и перед тем, как вернуть его в эксплуатацию с новой ролью. Даже в этот момент требования к емкости и производительности будут гораздо важнее, чем возраст дисков.

штурмовик типа "Скайхки"
источник
1
+1 для запуска перестроения
gregmac
Можете ли вы объяснить, почему риск составляет 58%? Если диск регулярно патрулируется, почему это будет больше стресса восстановления?
Мирча Вутцовичи
@MirceaVutcovici, потому что в схеме RAID-5 все диски будут постоянно активны во время перестройки по сравнению со случайным случайным поиском здесь или там. Другими словами, «нагрузка» на все диски возрастает, и при этом повышается риск запуска второго неисправного диска.
Эйвери Пейн
@Avery Payne Я знаю, что вы больше напрягаете диски во время перестройки. Я пытаюсь понять, почему перекомпоновка будет больше загружать диски, чем проверка целостности.
Мирча Вутцовичи
@MirceaVutcovici Точная цифра (и как это сделать математику) спорна, но в нижней строке вы должны прочитать 10 терабайт данных в шесть раз , без использования диска четности , чтобы исправить любые ошибки чтения, для того , чтобы выполнить шесть перестраивает. Вероятность чтения 60 терабайт данных без каких-либо ошибок совсем не в вашу пользу.
Скайхок
3

Я не видел это. Мы держим серверы на гарантии, пока они не будут сняты с производства - 5 лет. Стандартный RAID 5 позволяет вам пережить сбой диска, поэтому мы просто держим пару дисков под рукой, чтобы сразу приступить к восстановлению и на критически важных серверах, мы включаем горячую копию или запускаем RAID 10.

Если вы заметили сбой нескольких дисков недавно на сервере у вас может быть проблема с объединительной платой. Может быть новая вибрация или пыль тоже из соседней конструкции.

Пол Акерман
источник
Это не совсем правда. если большое количество дисков принадлежит одной и той же партии, риск одновременного сбоя возрастает, когда вы добавляете нагрузку на восстановление. Как отмечалось в другом ответе, увеличение размеров RAID5 приводит к увеличению вероятности URE во время перестроения, что делает ваш массив ниже порога достоверности raid5.
Магеллан