Прежде всего:
MTTF = среднее время до отказа
MTTR = среднее время до восстановления
MTBF = среднее время между сбоями = MTTF + MTTR
MTBF часто более или менее равен MTTF, поскольку ремонт может занять час, а MTTF может составлять десятки тысяч часов. Но также MTBF часто не применяется, поскольку дефектные изделия не ремонтируются, а просто заменяются, потому что ремонт стоит дороже, чем замена.
MTTF-расчет - это сложный статистический метод, включающий расчет вероятности отказа каждой отдельной детали. И это не линейная вещь, как иногда полагают люди. Если у вас MTTF 1000 000 часов, это не означает, что в 1000 устройствах будет один сбой через 1000 часов, или что вы получите отказ в 1000 000 устройств через 1 час.
Многие электронные устройства следуют «кривой ванны» ,
там, где в начале много сбоев, потом долго, почти без сбоев, и ближе к концу жизни число сбоев снова возрастает. В жестких дисках также есть некоторые механические части, которые имеют более линейную кривую разрушения; это медленно нарастает с первого дня.
Например, если производитель говорит, что MTTF составляет 1000 000 часов (чаще всего это POH или часы включения ), это означает, что в среднем накопитель должен работать более 100 лет. Некоторые накопители прослужат дольше, некоторые выйдут из строя раньше. Таким образом, несмотря на 1000 000 часов, вполне возможно иметь сбой через 1000 часов. Однажды у меня не получилось в течение недели подвезти, а потом ты должен вспомнить кривую ванны. Запасной диск вращался счастливо в течение> 50 000 часов.
Если единица оборудования имеет MTBF использования 1 000 000 часов, это не означает, что любая часть оборудования может прослужить 1 000 000 часов. Скорее, это примерно означает, что если 1 000 000 единиц оборудования, которые находятся в пределах их номинального срока службы, работают каждый в течение одного часа, или 100 000 единиц работают в течение десяти часов (но все еще в пределах расчетного срока службы), или 60 000 000 в течение одной минуты и т. Д. в партии будет примерно один сбой. Обратите внимание, что расчетный срок службы является полностью ортогональным к MTBF. Рассмотрим следующие два типа виджетов:
Первый тип виджета будет иметь среднее время жизни около 1000 часов, а также MTBF около 1000 часов. Второй срок службы составляет в среднем 61 минуту, но MTBF составляет 1 000 000 000 часов в течение срока службы. Хотя может показаться странным сказать, что второе устройство имеет MTBF, который почти в миллиард раз превышает ожидаемый срок службы, MTBF вряд ли является бессмысленной цифрой.
Предположим, что кто-то собирается провести эксперимент, который требует, чтобы 1 000 000 устройств все работали без перерыва в течение часа, после чего все они будут списаны. Если какое-либо устройство выходит из строя, весь эксперимент будет разрушен. Что было бы более полезно - устройство, которое будет работать в среднем 1000 часов, но имеет MTBF всего 1000 часов, или устройство, которое будет работать не более 61 минуты, но будет иметь только один шанс из миллиарда на отказ встретить эту отметку?
источник
Добавим к ответу Стивенвха: все известные производители дисков, как и производители электронных компонентов, проводят прогон новых устройств. На жестких дисках есть не только общая MTBF и MTTF, но и статистика отдельных сбоев для блоков дисков. Другими словами: некоторые части вращающегося «диска» на диске могут выйти из строя, в то время как большинство все еще читает / пишет нормально. Так называемые «плохие сектора» могут быть обнаружены и затем отображены встроенным программным обеспечением внутри привода.
Все накопители сегодня содержат в резерве дополнительные секторы, которые затем можно использовать вместо дефектных секторов. Это просто мера предосторожности производителя: если они этого не сделают, они не смогут продать диск за заявленную емкость. Если они встраивают дополнительные x% скрытых секторов в качестве резерва, они увеличивают стоимость примерно на <x%, но достигают гораздо более высокого общего выхода продукции.
Диски сегодня содержат количество поврежденных секторов, которые также могут быть считаны с помощью соответствующего программного обеспечения. Этот и другие параметры работоспособности диска (например, температура) называются значениями SMART .
Теперь, после того как производитель выполнил тест прожига накопителя, и некоторые из секторов почти полностью вышли из строя и были переназначены внутренней микропрограммой накопителя, параметр SMART «Bad Sector Count» устанавливается в 0. Затем диск доставлен клиентам.
Обычно, после процесса обжига, начало кривой ванны, о которой уже упоминалось, клиент больше не видит. Нам повезло, и мы видим только увеличение вероятности неудачи с течением времени.
Поэтому, если вы посмотрите на MTTF, указанный производителем, для любого моделирования отказов, которое вы можете захотеть сделать, вы можете не обращать внимания на начало кривой ванны.
источник
Вы должны интерпретировать это как маркетинг. Они на самом деле не знают точного MTBF (среднее время между сбоями), поэтому они используют различные приемы для его оценки и показывают более высокие цифры для «корпоративных» дисков, чтобы оправдать их стоимость.
В действительности, производителям жестких дисков выгодно, чтобы их жесткие диски выходили из строя вскоре после окончания гарантии.
Как теория заговора, я считаю, что массовый сбой Seagate 7200.11 был ошибкой в реализации «запрограммированной смерти», приводившей к отказу дисков до истечения срока гарантии, поэтому они должны были «исправить» это путем обновления прошивки.
источник