Среднее время до отказа (MTTF). Когда производители дисков сообщают об этом, как следует интерпретировать их числа?

10

Среднее время до отказа (MTTF) обычно указывается в часах, и при выполнении некоторых вычислений кажется, что диск должен выйти из строя только после того, как прошло немало лет.

Кажется, что диски нуждаются в ремонте чаще, чем это. Кто-нибудь знает, почему это так?

Я понял, что в этом показателе есть что-то подозрительное. Здесь что-то не так?

hard-drive hardware-failure statistics hard-drive-failure Кейтлин Макморди
источник

14

Прежде всего:

MTTF = среднее время до отказа
MTTR = среднее время до восстановления
MTBF = среднее время между сбоями = MTTF + MTTR

MTBF часто более или менее равен MTTF, поскольку ремонт может занять час, а MTTF может составлять десятки тысяч часов. Но также MTBF часто не применяется, поскольку дефектные изделия не ремонтируются, а просто заменяются, потому что ремонт стоит дороже, чем замена.

MTTF-расчет - это сложный статистический метод, включающий расчет вероятности отказа каждой отдельной детали. И это не линейная вещь, как иногда полагают люди. Если у вас MTTF 1000 000 часов, это не означает, что в 1000 устройствах будет один сбой через 1000 часов, или что вы получите отказ в 1000 000 устройств через 1 час.
Многие электронные устройства следуют «кривой ванны» ,

введите описание изображения здесь

там, где в начале много сбоев, потом долго, почти без сбоев, и ближе к концу жизни число сбоев снова возрастает. В жестких дисках также есть некоторые механические части, которые имеют более линейную кривую разрушения; это медленно нарастает с первого дня.

Например, если производитель говорит, что MTTF составляет 1000 000 часов (чаще всего это POH или часы включения ), это означает, что в среднем накопитель должен работать более 100 лет. Некоторые накопители прослужат дольше, некоторые выйдут из строя раньше. Таким образом, несмотря на 1000 000 часов, вполне возможно иметь сбой через 1000 часов. Однажды у меня не получилось в течение недели подвезти, а потом ты должен вспомнить кривую ванны. Запасной диск вращался счастливо в течение> 50 000 часов.

stevenvh
источник

3

Несколько вещей, на которые стоит обратить внимание, может заключаться в том, что ранние сбои часто называют «выгоранием». Производители, которые имеют намного более низкие ранние сбои, часто запускают устройства на этапе их выгорания. Кроме того, чистая электроника не имеет периода износа и только ожога.

Кортук

1

Обратите внимание, что когда вы вычисляете MTTF (или MTBF), вы обычно используете только один дистрибутив для моделирования сбоев. Таким образом, расчет основывается либо на распределении «детской смертности», «нормальной жизни», либо на «конце срока службы». Единственное, что отличает эти три распределения, - это параметр формы Weibull, если вы используете Weibull в качестве базового распределения. Единственный случай, когда сбои будут возникать из распределения «нормальной жизни», - это когда время не повлияет на частоту отказов, и, следовательно, распределение будет экспоненциальным.

2

MTTF в первую очередь полезен как показатель того, какую жизнь вы должны ожидать от устройства или виджета. По понятным причинам это не может быть точным прогнозом даты выхода из строя устройства. Это только оценка, основанная на статистическом анализе имеющихся данных, и должна рассматриваться только как таковая. Полезно для составления бюджета (как долго я должен амортизировать или амортизировать затраты здесь) и планирования (как долго мы можем ожидать выполнения виджета, прежде чем мы получим следующий).

music2myear

Во- первых, что именно это «провал диска»?

Кейтлин Макморди

2

@Kaitlyn - Я думаю, вы имеете в виду плохие сектора. Я бы сказал, что сбой диска - это когда вы не можете больше читать или писать на диск. Обычно механическая ошибка, например, падение головы. Это обычно происходит, когда у вас еще есть много хороших секторов.

Стивенв

4

Если единица оборудования имеет MTBF использования 1 000 000 часов, это не означает, что любая часть оборудования может прослужить 1 000 000 часов. Скорее, это примерно означает, что если 1 000 000 единиц оборудования, которые находятся в пределах их номинального срока службы, работают каждый в течение одного часа, или 100 000 единиц работают в течение десяти часов (но все еще в пределах расчетного срока службы), или 60 000 000 в течение одной минуты и т. Д. в партии будет примерно один сбой. Обратите внимание, что расчетный срок службы является полностью ортогональным к MTBF. Рассмотрим следующие два типа виджетов:

Каждый виджет, независимо от возраста, имеет шанс 0,1% сбоев каждый час.
Из каждого миллиарда виджетов все, кроме одного, проработают ровно 61 минуту, а затем умрут; тот умрет через 30 минут; виджеты имеют указанный срок службы 60 минут.

Первый тип виджета будет иметь среднее время жизни около 1000 часов, а также MTBF около 1000 часов. Второй срок службы составляет в среднем 61 минуту, но MTBF составляет 1 000 000 000 часов в течение срока службы. Хотя может показаться странным сказать, что второе устройство имеет MTBF, который почти в миллиард раз превышает ожидаемый срок службы, MTBF вряд ли является бессмысленной цифрой.

Предположим, что кто-то собирается провести эксперимент, который требует, чтобы 1 000 000 устройств все работали без перерыва в течение часа, после чего все они будут списаны. Если какое-либо устройство выходит из строя, весь эксперимент будет разрушен. Что было бы более полезно - устройство, которое будет работать в среднем 1000 часов, но имеет MTBF всего 1000 часов, или устройство, которое будет работать не более 61 минуты, но будет иметь только один шанс из миллиарда на отказ встретить эту отметку?

Supercat
источник

Итак, суть в том, что мы не должны рассматривать MTBF, равный 10-6 часам, как «среднее время жизни» какого-либо конкретного диска, а скорее как показатель, касающийся времени жизни нескольких дисков?

Кейтлин Макморди,

@Kaitlyn Mcmordie: термин «время жизни» на самом деле не применим; смерть не подразумевает неудачу, и наоборот. Производитель устройства хранения может указать процедуры, которые следует соблюдать, чтобы избежать потери данных; такие процедуры могут включать в себя перемещение всех данных из любого устройства, которое выдает «неизбежный отказ», на новое устройство (после копирования данных старое устройство считается «мертвым»). Если при таком событии не происходит потеря данных, это не сбой. Однако потеря данных с любого устройства, даже, казалось бы, работоспособного, является провалом. Ничего общего с жизнью.

суперкат

2

Добавим к ответу Стивенвха: все известные производители дисков, как и производители электронных компонентов, проводят прогон новых устройств. На жестких дисках есть не только общая MTBF и MTTF, но и статистика отдельных сбоев для блоков дисков. Другими словами: некоторые части вращающегося «диска» на диске могут выйти из строя, в то время как большинство все еще читает / пишет нормально. Так называемые «плохие сектора» могут быть обнаружены и затем отображены встроенным программным обеспечением внутри привода.

Все накопители сегодня содержат в резерве дополнительные секторы, которые затем можно использовать вместо дефектных секторов. Это просто мера предосторожности производителя: если они этого не сделают, они не смогут продать диск за заявленную емкость. Если они встраивают дополнительные x% скрытых секторов в качестве резерва, они увеличивают стоимость примерно на <x%, но достигают гораздо более высокого общего выхода продукции.

Диски сегодня содержат количество поврежденных секторов, которые также могут быть считаны с помощью соответствующего программного обеспечения. Этот и другие параметры работоспособности диска (например, температура) называются значениями SMART .

Теперь, после того как производитель выполнил тест прожига накопителя, и некоторые из секторов почти полностью вышли из строя и были переназначены внутренней микропрограммой накопителя, параметр SMART «Bad Sector Count» устанавливается в 0. Затем диск доставлен клиентам.

Обычно, после процесса обжига, начало кривой ванны, о которой уже упоминалось, клиент больше не видит. Нам повезло, и мы видим только увеличение вероятности неудачи с течением времени.

Поэтому, если вы посмотрите на MTTF, указанный производителем, для любого моделирования отказов, которое вы можете захотеть сделать, вы можете не обращать внимания на начало кривой ванны.

CFI
источник

Спасибо. Кстати, вы имеете какое-либо представление о том, что должен означать термин «сбой сервера»?

Кейтлин Макморди,

Очевидное значение - ошибка, с которой сталкивается компьютер, который предоставляет услуги другим. И я считаю, что именно в это время вы должны задавать вопросы на serverfault.com ;-) Не удалось найти что-либо об этом в FAQ

cfi

-2

Вы должны интерпретировать это как маркетинг. Они на самом деле не знают точного MTBF (среднее время между сбоями), поэтому они используют различные приемы для его оценки и показывают более высокие цифры для «корпоративных» дисков, чтобы оправдать их стоимость.

В действительности, производителям жестких дисков выгодно, чтобы их жесткие диски выходили из строя вскоре после окончания гарантии.

Как теория заговора, я считаю, что массовый сбой Seagate 7200.11 был ошибкой в реализации «запрограммированной смерти», приводившей к отказу дисков до истечения срока гарантии, поэтому они должны были «исправить» это путем обновления прошивки.

BarsMonster
источник

Я не покупаю этот аргумент заговора.

1

@ Федерико Руссо: Почему? Вы думаете, что это просто обычная ошибка разработчиков, заставляющая жесткие диски блокироваться в невосстановимом состоянии через определенное количество часов?

BarsMonster

2

-1: статистический анализ используется для определения чисел MTBF, и он известен определенной статистике - они не просто используют «различные уловки». Вам понадобятся некоторые важные источники для подтверждения ваших утверждений о том, что корпоративные диски имеют только большее число, что производители жестких дисков выходят из строя после истечения гарантии, а Seagate внедряет любой тип «запрограммированной смерти» на своих дисках.

Кевин Вермеер

1

В интересах производителей дисков показать более высокий MTTF, чем у их конкурентов. +1

тыблу

Что именно означает сбой диска? Что имеет значение для одного?

Кейтлин Макморди

Среднее время до отказа (MTTF). Когда производители дисков сообщают об этом, как следует интерпретировать их числа?

Ответы: